"GEDCOM X" - nyt format fra Familysearch

Startet af Mikkel Eide Eriksen, 29 Mar 2012 - 16:40

Forrige emne - Næste emne

Mikkel Eide Eriksen

Hej alle

Familysearch har lanceret et nyt format - tanken er at det skal erstatte det efterhånden noget klodsede GEDCOM-format (omend de burde have valgt et andet navn, for det har absolut intet med GEDCOM at gøre).

Ideen er som jeg forstår den meget lig en jeg selv har ligget og rodet med i privaten, navnlig en form for "påstandsbaseret slægtsforskning" (mit eget begreb). De fleste nuværende programmer benytter så vidt jeg ved samme metode som GEDCOM, hvori man påfylder data, og hele kildehenvisningsdelen mest virker som en eftertanke. Hvis ikke man holder tungen lige i munden står man hurtigt med en oplysning man ikke kan huske hvor kommer fra ("hvorfor har jeg skrevet at hun døde før 1907?").

I "påstandsbaseret slægtsforskning" er fremgangsmåden istedet at man opretter kilderne først; skriver afskrift, noterer årstal osv. Dernæst udtrækker man informationen, fx. "kilden siger at en mand ved navn Jens Hansen opholdt sig 1801 i København". Ved at samle en hel række af disse påstande kan der samles et billede af manden Jens Hansen. Der er således ikke oplysninger i databasen som ikke kommer fra en kilde.

http://www.gedcomx.org/Home.html

Jeg har desværre først opdaget det i dag, så jeg er stadig ved at sætte mig ind i det (og det ligesom jeg var i gang med at skrive mit eget GEDCOM-program, suk!), men det virker som et meget spændende format som jeg håber kan få gjort has på problemerne med GEDCOM.

De har også en github side for dem der gebærder sig udi systemudvikling og/eller programmering, og er åbne for bidrag, qva deres issue tracker.

mvh
Mikkel

PS.: Jeg har skrevet dette i "metode og teknik" istedet for "projekter", da en vigtig del af emnet jo netop er at gøre op med den hidtidige måde at samle slægtsdata på.
Interesse: alt Gilleleje plus Lindberg/Humble (SE/DK) Svane (Mors) Behringer (Alsace/DK/NO) Bortvig/Fleischer (Lolland)

Hjælper gerne med Sverige: https://forum.slaegt.dk/index.php/topic,153986

Leif Bærtelsen

Det virkser som om det er et spændende og godt projekt.

Jeg er ikke enig i det første afsnit i dit indlæg. Gedcom X er ikke ment som en erstatning for den gedcom standard vi har idag til udveksling af genealogiske data, men som et forskningsværktøj der satser på dokumentation af de data som vi bygger vor forskning på. Et værktøj som afkræfter eller bekræfter de konklusioner som man drager, enten med hjertet, eller ved logik, eller bare fordi man synes det ikke kan være andre.

GEDCOM X er tilsyneladende lige startet, så det bliver spændende at se om der kan skabes et logik-baseret værktøj som kan hjælpe på kvaliteten af den forskning vi arbejder med.
Leif Bærtelsen - 2670  - Legacy bruger

Mikkel Eide Eriksen

Hej Leif,

Enig, det virker rigtig spændende.

Hvad angår hvorvidt GEDCOM X er en erstatning eller ej, så mener Familysearch i hvert fald at det er: "GEDCOM X also defines a file format that will replace GEDCOM 5.5" (citat fra deres Tour).

Iøvrigt, så vil de gerne have feedback her (nederst på siden), herunder hvilke mangler man mener er i det eksisterende GEDCOM 5.5, således at GEDCOM X forhåbentlig ikke vil have tilsvarende problemer.

Jeg har selv skrevet til dem om de ting jeg er stødt på, fx. manglen på klart definerede "negative assertions" (dvs. man kan ikke i formatet skrive fx. at man ved at et par IKKE blev gift, man må istedet bare udelade MARR fra FAM-strukturen, og evt. tilføje en note).

mvh
Mikkel
Interesse: alt Gilleleje plus Lindberg/Humble (SE/DK) Svane (Mors) Behringer (Alsace/DK/NO) Bortvig/Fleischer (Lolland)

Hjælper gerne med Sverige: https://forum.slaegt.dk/index.php/topic,153986

Mikkel Eide Eriksen

Og forresten ja, det er i en tidlig fase (så hvis man har noget man brænder for er det nok et godt tidspunkt at byde ind). Deres 1.0 milepæl er sat til om 10 måneder, men vi får se om den tidsplan holder :-)

Mikkel
Interesse: alt Gilleleje plus Lindberg/Humble (SE/DK) Svane (Mors) Behringer (Alsace/DK/NO) Bortvig/Fleischer (Lolland)

Hjælper gerne med Sverige: https://forum.slaegt.dk/index.php/topic,153986

Egon Hansen

Jeg håber der er en "venlig sjæl" der fabrikerer en dansk oversættelse, noget a.la Klugs vejedning i i  hans lille bog om slægtsforskning på internettet.
Det lyder godt, at FS vil tage imod rettelser af helt urimelige jejl, Jeg har flere gange påtalt fejl til deres danske ledelse, log hver gang fået det besked, at jeg kunne sende dem en gedkom, så ville de tage stilling til om mine oplysninger skulle medtages, som  endnu et oplysning om en given person, men det der var skrevet ville ikke blive rettet!
Og så er vi lo lige vidt! Når fem forskellige IGI siger at Christen Simonsen er døbt i Aasted, ( men ikke findes i Aasted kirkebog, hvem vil så tro  den sjette. som siger at det passer ikke, især ikke når jeg ikke kan fortælle hvor han så er døbt!
Mvh Egon

Flemming Willum Petersen

Det lyder spændende og på den rette vej mod seriøs slægtsforskning, at lave et mere kildebaseret gedcom-format.

Imidlertid tænker jeg dog, om det ikke kommer til at give problemer, når man skal indtaste de oplysninger som ens mormor etc. har givet én da man startede med sin slægtsforskning?

Man kan naturligvis skrive "Mormor" som kilde, men så er vi vel egentlig lige vidt hvis man bare kan tilføje selvopfundne kilder på må og få.

Det eneste det her format i virkeligheden gør op med, er vel at man ikke kan indtaste oplysninger som slet ingen kilde har i virkeligheden fx. "Jeg har på fornemmelsen at Peder Jensen kommer fra Ølsemagle".

Nu ved jeg ikke med Jer andre, men jeg sørger da ALTID for at notere i min nuværende gedcom-fil, hvis dét, jeg har skrevet ned om en person er en formodning - og hvad begrundelsen til formodningen er. Og så forsker jeg i øvrigt aldrig videre i en formodning, men venter til at der er fundet beviser.

Gedcom-formatet som det er nu, bør jo egentlig ikke give anledning til problemer, hvis man blot sørger for at eftertjekke alle oplysninger og ikke bare uhæmmet prøver at få sin slægt kædet sammen med Gorm den Gamle eller Adam og Eva

Mvh. Flemming Willum Petersen
Forsker pt. i slægten Jog fra det sydvestlige Lolland. Dertil søges altid oplysninger om glarmestre/rakkere på Lolland og Sjælland.

Leif Bærtelsen

#6
Fidusen ved denne form for kilde-validering er jo netop at du kan skrive de oplysninger din mormor gav dig ind i din forskning, hvorefter GedcomX vil stille mormors oplysninger op mod de faktuelle oplysninger som folketællinger, kirkebøger mv. for at se om der er rimelighed i det som mormor har sagt. Hvis hun siger at morfar er født i 1893 og kirkebogen viser at det 1897 så er der noget galt som må løses.

Diagrammet over processen ( http://www.gedcomx.org/Home.html ) viser fremgangsmåden: Forskningsmål - Kilder - Informationer (mormor) - Beviser - Argumenter for sandt/usandt.

Standarden (GPS) siger: Definer mål - Søg troværdige kilder - Citer kilder - Analyser div oplysninger - Løs konflikter - Konkluder.

Man kan sagtens indtaste formodninger. De vil blive vejet op mod de øvrige oplysninger og vurderet som sandsynlige/brugbare eller ej. Det vil vise om din formodning er rigtig eller ej.

Egon Hansen skrev om sit problem om Christen Simonsen er døbt i Aasted. GedcomX vil sikkert konkludere at den påstand ikke er sand, fordi der ikke er nogen kilder som peger på at det er sandt, men at Simonsen sandsynligt er døbt der, medmindre andre kilder viser at han kan være døbt et andet sted.

Mange slægtsforskere som nedstammer direkte fra Gorm den Gamle, eller Jesus, vil få et gevaldigt problem med bevisførelsen hvis deres data havner i GedcomX. Det kan de selvfølgelig fortrænge, men andre som bruger GedcomX vil straks, uden at skulle gennemgå 1000 kilder kunne se at noget er galt.

Jeg har selv leveret materiale om personer som jeg har forsket i i årevis. En af dem formoder jeg er søn af en anden person som har samme efternavn og som lever det samme sted og har samme håndværk, men jeg har ingen beviser, såsom fødsel, dåb, skifte mv. Denne person er nu dukket op på FamilySearch som værende søn af den anden person. Den form for 'ønske'-forskning kan om få år være en saga blot - ligesom den direkte linie til Gorm den Gamle.

 
Tilføjet:

For øvrigt synes jeg at diagrammet som jeg henviser til er en rigtig god vejledning til forsknings-processen, som mange vil have glæde af. Download diagrammet og hæng det op på væggen.  ;)
Leif Bærtelsen - 2670  - Legacy bruger

Flemming Willum Petersen

Nu kan det godt være, at det er mig som er tungnem, men vil det sige at programmet/filen selv sammenligner datoer, steder og navne, og fortæller én om det er sandsynligt at man har fat i den rigtige person?

Eller hvordan?
Forsker pt. i slægten Jog fra det sydvestlige Lolland. Dertil søges altid oplysninger om glarmestre/rakkere på Lolland og Sjælland.

Mikkel Eide Eriksen

Hej Flemming

Det er som jeg forstår ikke en del af formatet, men vil være op til den enkelte programudbyder at implementere i større eller mindre grad. Men en form for maskinel validering vil bestemt være mulig ("hov stop, du siger at disse to er samme, men oplysninger modsiger hinanden").

Der bliver arbejdet med et "persona"-begreb, hvor de data der står i en kilde danner en persona som kun har de egenskaber (fx. alder, navn, sted, dato) kilden beskriver. Disse personaer bruges så til at danne det samlede indtryk af personen, med angivelse af hvor stor tillid man har til at personaerne er samme person. Det er mit indtryk at det bliver muligt at gøre det i flere niveauer:

Jeg er 100% sikker på at Jens Hansen i kilde A og kilde B er samme person.
Jeg er 95% sikker på at Jens Hansen i kilde C er samme som ovenstående.
Jeg er 100% sikker på at Jens Hansen i kilde D er samme som i kilde C.
Jeg er 50% sikker på at Jens Hansen i kilde E IKKE er samme.

I alt sidder man så med 5 udgaver af Jens Hansen, og kæder dem sammen:

A = B
C = D
"AB" måske lig med "CD"
E er nok ikke "AB" eller "CD"

På dette niveau har vi så kun 3 udgaver -- "AB", "CD", og E. De danner tilsammen en "top"-niveau-Jens Hansen, hvor det er muligt altid at gå tilbage og se hvilke konklusioner der er draget, og på hvilket grundlag; og efterhånden som forskellige nye kilder tilføjes, kan ens konklusioner eller tilliden til dem justeres.

mvh
Mikkel
Interesse: alt Gilleleje plus Lindberg/Humble (SE/DK) Svane (Mors) Behringer (Alsace/DK/NO) Bortvig/Fleischer (Lolland)

Hjælper gerne med Sverige: https://forum.slaegt.dk/index.php/topic,153986

Egon Hansen

Av min arm! Jeg troede at det var FS's mulighed flor at fange fejl i de data som de stiller til vores rådighed! .Men jeg kan se at jeg skal have forbedret mine sprogkundskaber ganske væsentligt.
Mit "gylp" om Christen Simonsen er ikke et tilfældigt valg. Prøv selv at slå hans ægteskab op i Aasted,Hjørring amt 1750, der kommer een anstral file, fem IGI og flere Pedigree resurce file. Ingen af disse er kirkebogsudtræk, men vielsesdatoen, børnenes navne og dåbsdage er korrekt men savel Christen Simonsens, som hans kone Margrethe Thorsdatters dabsdage som fødesteder er forkerte!
Jeg opfattede det første indlæg her i tråden, som at FS nu ville være villige til at slette det sludder om dåbssted og tidsåunkt, når de blev gjort opmærksom på at personerne ikke var nævnt som dæbt i Aasted kirke !
Jeg undskylder min godtroenhed . mange års erfaring med  FS burde have sagt mig at det ikke var tilfældet!

Mvh Egon

Flemming Willum Petersen

Hej Mikkel

Tak for forklaringen.

Det lyder interessant og kan vel sammenlignes med, hvis man har prøvet Geni eller Myheritage, at man får besked om at der er fx. 87% match mellem to Hans Jensen i eget slægtstræ og Hans Jensen i et andet slægtstræ - bortset fra at der bliver sammenlignet internt i filen / programmet.

Det rejser så bare en helt ny debat:

Hvordan % match skal der være for at man er sikker nok på, at der er tale om den rigtige person,
til at man bør forske videre i personens slægt? Som vi alle ved er også originalkilder som FT og KB fejlbehæftet, og det vil jo i givent tilfælde have indflydelse på programmets beregninger, hvis man, som man bør, skriver ordret af efter kilden.



Forsker pt. i slægten Jog fra det sydvestlige Lolland. Dertil søges altid oplysninger om glarmestre/rakkere på Lolland og Sjælland.

Mikkel Eide Eriksen

Hej Flemming

Det er vigtigt at adskille formatet "Gedcom X", som udelukkende er et format til at opbevare og udveklse genealogiske konklusioner, og så hvordan et givent program vil håndtere import/export og redigering af de konklusioner.

De procentvise matches man kan få online vil ikke være en del af Gedcom X, det er igen op til diverse udbydere, og kan sammenlignes med de "matches" vi selv laver i hovedet hver gang vi finder en person nævnt i en kilde som vi mener må være den samme som en i vores slægtstræ.

Så ja, i sidste ende må det bero på en vurdering fra forskerens side - det gør det jo også nu (vi ved jo alle at man ikke skal regne 100% med personers alder eller endda navne i FT). Fordelen ved dette format er så at man altid kan afvikle en konklusion igen uden at skulle starte forfra.

For eksempel har jeg i mit træ en Frederic Gothilf der befinder sig i Sct. Jørgensbjerg ved Roskilde i begyndelsen af 1800-tallet. Han skal være født omkring 1776 udfra alderen ved folketællingerne. Jeg ved også at der fødes en Johan Frideric, søn af Gothilff Gierman i 1776 i København.

Efterhånden som jeg samler data på disse to kilde-personer/personaer (ikke at forveklse med den eller de virkelige personer der levede dengang), kan det være at jeg finder ud af at Johan Gothilf ikke er identisk med Johan Frideric, søn af Gothilf Gierman. Nu skal jeg gå alle oplysningerne på min "Johan Frideric Gothilf" igennem for at se hvorvidt hver enkelt oplysning hører til den ene eller den anden.

I Gedcom X vil det være helt tydeligt, hvis jeg har sørget for at beholde to under-personaer, hvor jeg hver gang jeg har fundet en oplysning har kædet den til den rette; og så en over-persona, hvor de to er samlet. Så kan jeg simpelthen bare markere at de to ikke længere skal regnes som samme person.

Og hvis jeg så igen finder en helt ny kilde der modsiger den anden og det viser sig at jeg ar fejltolket: de rent faktisk ER samme person, så bliver markeringen bare ændret igen.

mvh
Mikkel
Interesse: alt Gilleleje plus Lindberg/Humble (SE/DK) Svane (Mors) Behringer (Alsace/DK/NO) Bortvig/Fleischer (Lolland)

Hjælper gerne med Sverige: https://forum.slaegt.dk/index.php/topic,153986

Mikkel Eide Eriksen

Hej Egon

Jeg ved ikke hvad Familysearch har tænkt sig at gøre ved IGI, men man kan jo altid håbe at det her format er udtryk for at de vil give kilde-tilknytning større vægt, således at sludder der ligge i deres database uden kilde vil forsvinde, eller blive tydeligt markeret som værende ubekræftede spekulationer der skal tages med et vældigt gran salt.

Mikkel
Interesse: alt Gilleleje plus Lindberg/Humble (SE/DK) Svane (Mors) Behringer (Alsace/DK/NO) Bortvig/Fleischer (Lolland)

Hjælper gerne med Sverige: https://forum.slaegt.dk/index.php/topic,153986

Mikkel Eide Eriksen

Hej igen

Nu er der kommet specifikationer med mere kød på, inklusive diagrammer:

http://familysearch.github.com/gedcomx/2012/06/05/specs-diagrams-and-tools.html

Desuden et værktøj hvor man kan prøve at konvertere filer fra Gedcom 5.5 til Gedcom X:

http://familysearch.github.com/gedcomx/2012/06/05/gedcom-to-gedcomx-conversion-tool.html

Projektet er stadig under udvikling og vil ikke kunne erstatte pt. kunne erstatte nuværende systemer, men der er masser af aktivitet i deres commit-log på github.

mvh
Mikkel
Interesse: alt Gilleleje plus Lindberg/Humble (SE/DK) Svane (Mors) Behringer (Alsace/DK/NO) Bortvig/Fleischer (Lolland)

Hjælper gerne med Sverige: https://forum.slaegt.dk/index.php/topic,153986

Mikkel Eide Eriksen

Hej igen,

Der har været en del aktivitet på udviklingen af GedcomX fra FamilySearch's side siden sidst.

Som jeg ventede er de nu i gang med at udarbejde "persona"-delen af GedcomX. Kort fortalt vil det sige at man i sit slægtsprogram laver en "persona" for hver kilde, og så kombinerer disse i et hierarki således at man let kan adskille/kombinere dem hvis en ny kilde giver særlige oplysninger. Jeg har beskrevet det i flere detaljer ovenfor.

Der bliver også arbejdet med mulighed for at indlejre fx. billeder eller links til billeder direkte i filen, inkl. et sæt koordinater. Så kan man fx. sige "opslag 123 i kirkebogen for ABC" og trække en firkant rundt om den egentlige indførsel, så en anden forsker man udveksler data med hurtigt kan finde den.

Hvis man er interesseret i dataformater eller har særlige ønsker/ideer kan jeg varmt anbefale at starte et såkaldt "issue" på deres github - de har været meget åbne for mine forslag til forbedringer og afklaringer.

Se mere her: https://github.com/FamilySearch/gedcomx/issues?sort=updated&state=open

mvh
Mikkel
Interesse: alt Gilleleje plus Lindberg/Humble (SE/DK) Svane (Mors) Behringer (Alsace/DK/NO) Bortvig/Fleischer (Lolland)

Hjælper gerne med Sverige: https://forum.slaegt.dk/index.php/topic,153986