Vejvisere fra Horsens

Startet af Jan Østergaard Andersen, 03 Maj 2013 - 09:20

Forrige emne - Næste emne

Jan Østergaard Andersen

For hvem som kan have interesse i det, så har jeg været i gang med at skanne nogle af vejviserne fra Horsens.

Forløbig drejer det sig om Horsens Vejviser fra 1917, 1927, 1938, 1944 og 1946.

Der vil løbende blive lagt flere på, efterhånden som jeg får dem skannet og bearbejdet og det er min hensigt at alle Horsens vejviserne fra 1832 og til 1958 skal skannes og ligges på nettet.

De er alle lavet søgebare og er der en som kan hjælpe eller komme med forslag til, hvordan de gamle vejvisere med gotisk skrift kan gøres søgebare, hører jeg gerne ???

Vejviserne kan findes her:
http://www.horsensbilleder.dk/historie/vis/vejvisere%20fra%20horsens
Mvh
Jan Østergaard
www.horsensbilleder.dk

Gitte Johansen

Hej Jan


Tak for dit arbejde.

Har allerede fundet den første af min familie i Vestergade 50, Slagter Strand.
Venlig hilsen
Gitte Johansen 8520 Lystrup

gittejohansen(snabel a)rocketmail.com

Leif Sommerdal

Hej Jan

Jeg går ud fra, at det er trykte gotisk skrift du efterspørger.
Kan du vedhæfte et eksempel, så vil jeg forsøge om jeg kan finde et forslag.

Dui kan evt. maile det til mig
Med venlig hilsen
Leif Sommerdal(2650)


John Nielsen

Hej Jan

Finereader kan læse fraktur, men det er på en speciel licens.
Martin Henriksen har lavet en masse i det område: http://www.h58.dk/

Hilsen John Nielsen

Leif Sommerdal

#4
John har ganske ret.

FineReader Online ser ud til at kunne klare opgaven.

Der er mulighed for at teste det gratis, så vidt jeg kan se.
Derudover skal der købes adgang - 200 sider koster 10$

Jeg vil kigge på om den version af FineReader, som jeg har adgang til kan klare det
Med venlig hilsen
Leif Sommerdal(2650)


Jan Østergaard Andersen

Leif: Ja, det er den trykte gotiske skrift. Jeg forsøger at skaffe noget materiale.

John: Måske Henrik kan/vil hjælpe, hvis det kommer dertil?

Vil helst om der findes en gratis løsning, da det jo er privat og mine lommepenge det går ud over ;)
Mvh
Jan Østergaard
www.horsensbilleder.dk

John Nielsen

Hej Jan

Det må du snakke med Henrik om, men jeg mener at hans licens må være opbrugt med al det han har lavet.

Her du kikket på din OCR læste tekst som bruges til søgning i PDF'en.
De mange vejvisere jeg har lavet er scannet i 4-600 DPI og der er stadig en mange systematiske fejl som jeg retter med den ret sølle "søg og erstat" i Finereader, det burde have været en streaming editor (SED) istedet.

Hilsen John Nielsen

Leif Sommerdal

Måske kunne du have interesse i at se på denne gratis løsning

Bemærk specielt det sidste afsnit SOLVED

Jeg hjælper gerne - men det kræver et par dokumenter, da systemet formentlig skal trænes.
Med venlig hilsen
Leif Sommerdal(2650)


John Nielsen

Hej Jan og Leif

Tesseract er udviklet af HP og er en udmærket OCR maskine.
De opgav videre udvikling på den og overførte koden til free.

Jeg har for nogen tid siden kikket på Tesseract, men der manglede meget dengang.
Så min konklusion var at Finereader stadig var den bedste selvom jeg gerne ville have haft den udskiftet.
Så hvis Tesseract er blevet et reelt alternativ vil jeg gerne høre om det.
Stort set alle andre værktøjer jeg bruger er GNU.

Hilsen John Nielsen

Carsten R. Nielsen

Rigtigt fint arbejde!

Der står på hjemmesiden, at filerne "fylder utroligt meget" og at det derfor vil tage lang tid at downloade dem. Det synes jeg slet ikke er noget problem, og jeg har bestemt ingen hurtig forbindelse. Det er meget bedre at have muligheden for at downloade en fuldstændig scanning af en vejviser end at dele den op i små stykker eller (værre endnu) udelade dele. Så venter man gerne de ekstra minutter.

MVH
Carsten
8000 Aarhus C • Website: > www.slaegtsoglokalhistorie.dk

Bente Ougtvig Dyrstad

Hejsa

Tusind tak for dit store abejde, har en del i Horsens.
Venlig Hilsen**Bente Ougtvig 

Vivi Winther

Hej Jan, jeg har den Gratis løsning jeg har CD med ABBY Fine Reader 9,0 og ingen har mere fortjent den end du. Send en email hvor jeg kan aflever den.

Mvh

Vivi
"Intet er umuligt for den der bevarer viljen i hjertet"

Jan Østergaard Andersen

Hej Vivi.

Jeg har sendt dig en mail, med ja tak for tilbuddet.
Mvh
Jan Østergaard
www.horsensbilleder.dk

John Nielsen

Hej Jan

Jeg har lige afprøvet Tesseract, og den er helt klart et alternativ idag.
Det må være fordi Google bruger den, at der er begyndt at ske noget.
Mit input 300 DPI 2 kolonner små typer.
Næsten perfekt output, der var enkelt o der blev 0 i en tekst, æøå leveres som UTF8, men det er nemt at rette.
Så de er kommet en meget lang vej siden jeg prøvede dem sidst.

Der følger en dansk fraktur defination med, den har jeg dog ikke prøvet.

Tesseract er lidt rå og upoleret, men der ser ud til at være anvendelige frontsystemer til den.

Hilsen John Nielsen

John Nielsen

Hej Jan

Så har jeg også prøvet at læse gothic/fraktur med Tesseract.
Det giver en del flere fejl, men til prisen er det absolut ikke dårligt.
Jeg har ikke prøvet at lave en PDF endnu, men hocr optionen virker fint.
Jeg har prøvet nogen af de omtalte frontsystemer, men foreløbig skrammel.

Hilsen John Nielsen

Leif Sommerdal

Hej John

Har du forsøgt dig med træning?
Med venlig hilsen
Leif Sommerdal(2650)


John Nielsen

Hej Leif

Nej, det er ver. 3.02.02 som den installerer sig.
Et løst gæt er fejlrate 5-8% ved fraktur, og 1-3% ved Latin.
Der er også en tysk fraktur, det er muligt at den er bedre.
Min tekst er fra 1860 så den er muligvis værre.

Hilsen John Nielsen

Leif Sommerdal

Men du kan træne progammet til at kunne forstå specielle skrifttyper.
Hat fu forsøgt det?
Med venlig hilsen
Leif Sommerdal(2650)


John Nielsen

Hej Leif

Ja, det kan man.
Nej, det har jeg ikke, og jeg har heller ingen planer i den retning.
Det er ikke bestemte karakterer den fejler på, så det er ikke sansynligt at træning vil hjælpe.

Hilsen John Nielsen

Leif Sommerdal

Nu har jeg selv forsøgt med FineRearder 11 og Tesseract.

Tesseract er virkelig forbedret
Med venlig hilsen
Leif Sommerdal(2650)


John Nielsen

Hej Leif

Ja, Tesseract virker fornemt nu, også rimeligt med fraktur.
Problemet er at der behøves mere end en OCR maskine.
Der mangler mulighed for at se og evt rette sideinddelingen,
der mangler editering af systematiske fejl ala SED.
der mangler manuel editering af den læste tekst mens den viser stedet i originalen,
der mangler mulighed for at lave søgbar PDF.
Kortsagt der mangler en anvendelig front.
Jeg har søgt efter sådanne løsninger uden held.

GNU har i masser af år haft de bedste værktøjer herunder grafiske, men sammenhængen har altid manglet.
GIMP er den hidtil bedste frontend og det er noget klamp i forhold til f. eks. IrfanView.

Hilsen John Nielsen

Jan Østergaard Andersen

Tak for kommentarerne.

Leif, hvis der er ok, vender jeg tilbage, når jeg får fat på noget gotisk materiale
Mvh
Jan Østergaard
www.horsensbilleder.dk

Leif Sommerdal

Det gør du bare  - Jan
Med venlig hilsen
Leif Sommerdal(2650)


Jan Østergaard Andersen

Så er Horsens vejviser 1905/06,
1909/10 og 1918 lagt på hjemmesiden
Mvh
Jan Østergaard
www.horsensbilleder.dk