Kopie des alten Systems

Dies ist eine alte Kopie des GenWiki und spiegelt den Stand vom 8. Mai 2022 wider.

This is an old copy of the GenWiki and reflects the status as of May 8, 2022. Please visit us at wiki.genealogy.net

Duplikats-Differenz-Vergleich

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.

Wechseln zu: Navigation, Suche
Duplikats-Differenz-Vergleich

Inhaltsverzeichnis

Bezeichnung

  • Duplikats-Differenz-Vergleich


Problembeschreibung

Voraussetzungen

  • die eingesetzte Genealogiesoftware hat keinen Zeitstempel in den Daten abgespeichert
  • unterschiedliche Genealogiesoftware der beiden Forscher (Schwierigkeiten beim Verschmelzen der Dateien)

Eine kleine Geschichte

  • Zwei Forscher (A und B) betreiben jeder für sich unser schönes Hobby und forschen in der gleichen Region. Forscher A hat 15.000 und Forscher B 10.000 Personendatensätze
  • Eines Tages kommen die beiden Forscher zusammen und stellen Duplikate in ihren Genealogien fest.
  • Sie tauschen sich gegenseitig die Personendatensätze aus.
  • Beide Forscher fügen den bekommenen Datensatz in ihre Daten ein.
  • Nach der vollbrachten Verschmelzung und der Beseitigung der entstandenen Duplikate haben beide Forscher jeweils 23.000 Personendatensätze (2000 Duplikate).
  • Nach einem weiteren Jahr kommen unsere beiden Forscher wieder zusammen. Jetzt hat Forscher A: 26.000 und Forscher B: 30.000 Personendatensätze.
  • Wie bekommen jetzt die Forscher heraus, was der andere hat und was er für sich benötigt (jetzt wären es ja immerhin ca. 23.000 Duplikate, welche zum Verschmelzen wären)?
  • Wie können Sie ihre Duplikate ermitteln, welche sich in beiden Personendatensätzen unterscheiden/differieren (Duplikats-Differenzen)?


Grafik zu "Eine kleine Geschichte" über den Duplikats-Differenz-Vergleich


Problem-Lösung

Problem-Lösungsansatz-Grundlagen

  • Sie wollen nicht die ca. 23.000 Duplikate wissen (das sind zu viele!)
  • Sie wollen nur die seit dem letzten Jahr entstandenen Duplikate (Duplikats-Differenzen) in einer Liste haben, welche sich jetzt differieren (unterscheiden)
  • Die Anzahl der Duplikats-Differenzen kann unter Umständen sehr gering sein, wenn zum Beispiel von wenigen Personen ausgehend weiter geforscht wird (siehe "Duplikats-Differenzen" in der Grafik "Eine kleine Geschichte")
  • Die Auswahl der Vergleichs-Kriterien spielt die entscheidene Rolle für das Ergebnis
  • Grundlagen-Duplikate ermitteln: Eine Vergleichsmöglichkeit sind Geburtstage. Es gibt noch viele weitere Möglichkeiten, welche hier aber nicht näher betrachtet werden sollen --> Übersichtlichkeit der Darstellung. Mit etwas Phantasie kann es sich jeder etwas darunter vorstellen. Mit dem Hilfsprogramm GENViewer kann eine Datenbereitstellung vorgenommen werden. Beispiele von weiteren Merkmalen sind im Ergebnis-Bereich angeführt
  • Duplikats-Differenz(en) mittels eines Vergleichs der erweiterten Grundagen-Duplikate ermitteln: Die Erweiterung sind zum Beispiel die Elterngeburtstage (Vatergeburtstag und Muttergeburtstag)
  • Beispiel:
Personengeburtstag: 12.05.1850
Vatergeburtstag: 16.08.1819
Muttergeburtstag: 24.07.1822

Problem-Lösungsansatz-Detail

  • Sie entschließen sich zu der oben angeführten Variante des Duplikats-Differenz-Vergleichs die lautet:
  • 1) Tabelle der Personendaten erstellen (z.B.: mit dem Hilfsprogramm GENViewer)
  • 2) Grundlagen-Duplikate mittels Geburtstag feststellen (12.05.1850)
(Grundvergleich der beiden Genealogien nur nach Geburtstag aller Personendaten gegeneinander)
  • 3) Grundlagen-Duplikate mit mit deren Vater- und Muttergeburtstag (12.05.1850|16.08.1819|24.07.1822)erweitern
  • 4) Duplikats-Differenz-Vergleich mit den erweiterten Grundlagen-Duplikate (aus 2) durchführen und dabei die Duplikats-Differenzen feststellen.
  • 5) Ergebnis des Duplikats-Differenz-Vergleich
===> fertig ist der Duplikats-Differenz-Vergleich Ein Smiley

Problem-Lösungsweg-Grafik

Problem-Lösungsweg-Grafik 1-2
Problem-Lösungsweg-Grafik 3-5


  • Viel Spaß beim Ausprobieren und Tüfteln des beschrieben Lösungsansatz Ein Smiley

Bisherige Umsetzung

  • Die Daten wurden mit einem entsprechenden Programm (z.B.: GENViewer) nach CSV kopiert und dann in eine Datenbank (z.B.: Access/Open Office) gebracht.
  • Anschließend wird der Duplikats-Differenz-Vergleich nach dem vorgenannten Verfahren von Hand ausgeführt.
  • Schnelle Ergebnisse sind mit Datenbanken (z.B.: Access/Open Office) ohne Probleme schnell umsetzbar

Gewünschte Umsetzung

  • vollautomatischer Duplikats-Differenz-Vergleich (damit jeder Anwender in der Lage ist, diesen etwas komplizierten Vergleich selbständig auszuführen.
  • Das beschriebene Verfahren des Duplikats-Differenz-Vergleich wurde dem Programmhersteller von GENMatcher schon mitgeteilt und in unseren Mailinglisten im Jahr 2005 ausgiebig diskutiert.
  • Mit den unterstützenden Bildern konnte das komplexe Thema etwas besser dargestellt werden.

Ergebnis

  • Im vorgenannten Beispiel werden die Duplikate in den verschiedenen Dateien gefunden, welche im Geburtstag der Person identisch sind, aber sich in deren Elterngeburtstage differieren (unterscheiden)
  • Das Beispiel ist auf viele verschiedenen Varianten erweiterbar (z.B.: Name, Vorname, Vor- und Nachname, [Soundex]-Name, Heiratsanzahl, Heiratsdatum(s), Frauengeburtstag(e), Kinderanzahl, Kindergeburtstag(e), Vorfahrenanzahl, Nachfahrenanzahl ....). Jede der vorgenannten Auswahlkriterien kann wieder unterschiedliche Differenz-Duplikate ausgeben. Verstanden!?
  • Mit etwas Phantasie gibt es sehr viele Varianten mit unterschiedlichsten Ergebnissen.


===> Duplikats-Differenz-Vergleich Ein Smiley

Autor

Anwendermeinungen/Berichte

siehe unter: Meinung

Persönliche Werkzeuge