transkribus

Startet af Ivan Jensen, 29 Aug 2017 - 12:51

Forrige emne - Næste emne

Ivan Jensen

Jeg hørte i nyhederne i dag om et projekt, transkribus, der skulle muliggøre OCR-scanning/HTR-scanning af gotisk håndskrift, dvs. alle vores gamle dokumenter. Allerede nu, kan der scannes engelske og hollandske dokumenter og man forventer at i løbet af få år kan der scannes danske dokumenter.
Link til hjemmesiden: https://transkribus.eu/Transkribus/

Er der nogen i forum, der har erfaring med/viden om dette?

Mvh
Ivan

Med venlig hilsen
Ivan Jensen

Webmaster på djursdatabasen.dk og danskekartoffeltyskere.dk

Svend-Erik Christiansen

Hej Ivan

Nyheden forleden i radioavisen kørte på, at vi i Århus-området (stadsarkivar Søren Bitsch Christensen blev interviewet) er ved at indtaste nogle tekster i det omtalte program Transkribus.

Vi har 2016-2017 fået digitaliseret sogneforstander-/sognerådsprotokollerne fra de oplandskommuner, som i 1970 blev til Aarhus Kommune - ca. 130.000 sider. Det er gjort på baggrund af mikrofilms-kopier med de tilsvarende kvalitetsproblemer, som vi nogle gange også støder på i Arkivalieronline.

Jeg er en af dem, som har fået lidt praktisk erfaring med programmet Transkribus, idet jeg pt. har indtastet/afskrevet ca. 50 sider fra den ældste sogneforstanderprotokol dækkende fra 1841 og indtil videre til 1845 for den gamle Brabrand-Kasted Kommune. I programmet markerer jeg, hvor tekstlinierne "snor" sig - der på dette tidspunkt er håndskrevne med gotiske bogstaver - og skriver præcis, hvad der står på linierne, incl. markeringer af ophøjede bogstaver og overstregninger.

Hvor langt man kan nå med opbygning af et system til tydning af håndskrevet (gotisk) tekst må tiden vise. Afskrivningerne er kun første trin.

Ifølge nyheden i radioavisen skulle der på nuværende tidspunkt være opbygget tilstrækkelig "teksterfaring", så norske, engelske og tyske tekster kan give noget brugbart ved maskinlæsning (jeg mener det var disse sprog, der blev nævnt).

Så vidt jeg har kunnet finde ud af, så bygger Transkribus på ordgenkendelse (bogstaverne er sammenhængende i håndskrift), mens det er bogstavgenkendelse (OCR), som benyttes ved trykte tekster, hvor der er tale om enkeltstående bogstaver, men som sagt sidder jeg først i "fødekæden" til udvikling af et fremtidigt læsesystem.

Mvh.
Svend-Erik Christiansen

Ivan Jensen

Hej Svend-Erik.

Nu skriver du 'vi i Århus-området'! Hvordan kan man komme med/blive involveret i dette arbejde?
Teknikken bag, har interesseret mig i årevis, og jeg vil gerne lære mere om, hvordan man arbejder med systemet Transkribus i praksis.
Det er jo rigtigt, at teknikken er anderledes end OCR-scanning, som jo er rent digitalt, hvorimod man ved HTR (Handwritten Text Recognition) anvender en helt anden teknik, som godtnok er meget gammel. men som dårligt har kunnet anvendes til noget praktisk pga. manglende computerkraft indtil nu.

Som sagt, vil jeg meget gerne 'mødes' med nogen omkring dette.



Med venlig hilsen
Ivan Jensen

Webmaster på djursdatabasen.dk og danskekartoffeltyskere.dk

Lise Gardner

En gammel post, men meget relevant nu. Jeg var på Viborg Rigsarkiv sidste uge og blev instrueret i at taste tekster ind på Transkribus. De søger frivillige.