Datenlinkage
Datenlinkage bezeichnet die Verknüpfung verschiedener Datenquellen. Der Begriff Record Linkage wird oft synonym verwendet, oft aber auch im engeren Sinne zur Bezeichnung der technischen (algorithmischen) Verfahren zur Erkennung, ob zwei Datensätze zum selben Fall gehören, und gegebenenfalls zu deren Zusammenführung in einem einzelnen Datensatz[1]. Datenlinkage ist Teil des Datenmanagements, dient zur Verbesserung der Datenqualität und stellt ein wichtiges Teilgebiet der Data Science dar.
Szenarien
[Bearbeiten | Quelltext bearbeiten]Datenlinkage ist immer dann relevant, wenn Daten in einer Datenbank korrigiert oder aus einer anderen Datenquelle ergänzt werden sollen. Beispiel: Die Daten eines Krebsregisters werden durch die Daten eines Melderegisters ergänzt, die Informationen zu Todesfällen enthalten. Bei Krebsregistern ist das Datenlinkage ein Routine-Vorgang und durch das Bundeskrebsregisterdatengesetz[2] geregelt.
Typische Szenarien sind:
- Duplikaterkennung und Deduplikation; hier werden in einer Datenbank mehrfach vorhandene Datensätze aufgespürt und das mehrfache Vorkommen bereinigt.
- Zusammenführung zweier, sich teilweise überlappender, Datenbanken, das Record Linkage im eigentlichen Sinn; hier sollen ergänzende Daten in der jeweils anderen Datenbank gefunden werden, z. B. im Sinne eines Follow-up oder einer Datenfusion.
- iterative Dateneingabe[3]; hier sollen einer Datenbank laufend neue Datensätze hinzugefügt oder bereits vorhandene ergänzt werden. Dabei ist zu prüfen, ob ein einzugebender Datensatz früher schon ganz oder teilweise erfasst wurde.
Wenn die Datensätze (oder die zum Vergleich verwendeten Datenfelder) völlig identisch sind, ist die Aufgabe in allen diesen Szenarien trivial. Die eigentlichen Verfahren des Record Linkage betreffen Fälle, in denen die Datensätze möglicherweise fehlerbehaftet oder lückenhaft sind. Für die Zuordenbarkeit zweier Datensätze werden bei den meisten Verfahren Maßzahlen (Scores) für die Ähnlichkeit verwendet und ein oder zwei Schwellenwerte definiert. Wird der obere Schwellenwert erreicht oder überschritten, werden die Datensätze als zusammengehörig angesehen, wird der untere Schwellenwert unterschritten, gelten sie als nicht zusammengehörig; das kann algorithmisch entschieden werden. Im Fall, dass sich oberer und unterer Schwellenwert unterscheiden, verbleibt dazwischen ein Bereich, in dem das algorithmische Verfahren die Entscheidung offen lässt. Dann trifft oft ein menschlicher Bearbeiter die abschließende Entscheidung (Clerical Review), eventuell unter Hinzuziehung weiterer Informationen.
Beispiel: Ein Adress-Datensatz, in dem das Datenfeld „Familienname“ einmal mit dem Wert „Mueller“ und einmal mit dem Wert „Müller“ oder das Feld „Vorname“ einmal mit dem Wert „Karl“ und einmal mit dem Wert „Karl Josef“ besetzt ist. Schon dieses einfache Beispiel weist darauf hin, dass sich das Problem, identische Fälle zu erkennen, algorithmisch nicht immer vollständig lösen lässt: Es könnte sich bei den vermeintlichen Duplikaten ja auch um Familienmitglieder im gleichen Haushalt handeln.
Die Verfahren des Datenlinkage werden meist im Kontext von personenbezogenen oder personenbeziehbaren Daten eingesetzt und müssen dann die Vorgaben des Datenschutzrechts beachten; sie sind aber auch für andere Arten von Daten anwendbar. Bei personenbezogenen Daten steht die Verknüpfbarkeit im Konflikt mit dem Gewährleistungsziel der Nicht-Verkettbarkeit, wie sie etwa im Standard-Datenschutzmodell definiert wird. Die Entwicklung datenschutzfreundlicher Verfahren zum Datenlinkage (Privacy-Preserving Record Linkage, PPRL, siehe unten) zielt auf eine Minimierung dieses Konflikts ab. Zu beachten ist, dass auch pseudonymisierte Daten in der Regel als personenbeziehbar gelten, so dass für das Datenlinkage ein rechtlicher Erlaubnistatbestand vorhanden sein muss, z. B. eine informierte Einwilligung der betroffenen Personen.
Für die Durchführung des Record Linkage existieren einige Software-Werkzeuge[4].
Fehler beim Linkage
[Bearbeiten | Quelltext bearbeiten]Bei den Verfahren zum Record Linkage können zwei Arten von Fehlern vorkommen:
- Ein Synonymfehler tritt auf, wenn zwei zusammengehörige Datensätze versehentlich als nicht zusammengehörig deklariert werden, mit der Folge, dass ein Individuum durch zwei verschiedene Datensätze repräsentiert wird.
- Ein Homonymfehler tritt auf, wenn zwei nicht zusammengehörige Datensätze versehentlich als zusammengehörig deklariert werden.
Wird das Linkage algorithmisch durch einen Score unterstützt, so wird durch Erhöhung der Schwellenwerte tendenziell die Rate von Homonymfehlern verringert, die von Synonymfehlern erhöht, und umgekehrt bei Absenkung der Schwellenwerte.
Beispiele für mögliche Fehlerquellen in den einzelnen Datensätzen sind:
- falsche oder unvollständige Eingaben,
- abweichende Schreibweisen, z. B. bei ausländischen Namen,
- Zahlendreher oder Buchstabendreher,
- Namens- oder Adressänderungen.
Um diese Arten von Fehlern von vornherein zu minimieren, werden als Vorbereitung des Linkage oft einzelne Datenfelder standardisiert. Entsprechende Maßnahmen können sein die einheitliche Behandlung von
- diakritischen Zeichen, z. B. Auflösung von Umlauten,
- Doppelnamen, z. B. Auftrennung in zwei Datenfelder,
- Namenszusätzen wie Titel oder Adelsprädikaten,
- Adressangaben,
- Abkürzungen.
Darüber hinaus werden oft auch phonetische Versionen von Namen verwendet. Übliche Verfahren zu deren Bildung sind
- Soundex,
- Kölner Phonetik,
- Hannoversche Phonetik[5].
Für die Beschreibung der Verfahren des Record Linkage geht man in der Regel davon aus, dass definierte Teile der Datensätze zum Vergleich herangezogen werden. Die Datenfelder dieser Teildatensätze werden als Identifikatoren oder Schlüsselvariablen bezeichnet; darüber hinaus können die Datensätze weitere, auch unterschiedliche Datenfelder enthalten, die oft als Nutzdaten bezeichnet und nicht zum Linkage herangezogen werden.
Beispiel: Bei der Zusammenführung zweier Kunden-Datenbanken von zwei Tochtergesellschaften könnten die Felder „Name“, „Vorname“, „Geburtsdatum“, „Wohnort“ und „Adresse“ zusammen als Identifikatoren verwendet werden, während die Bestell-Historien als Nutzdaten behandelt werden.
Das Record-Linkage-Problem wird durch die Vergabe eindeutiger Identifikatoren vereinfacht, Beispiel: Steuernummer. Das Problem der Datensatz-Zusammenführung ist dann trivial; die Schwierigkeit, die mit der Erkennung einer Übereinstimmung verbunden ist, ist in den Prozess der Zuteilung der Identifikatoren ausgelagert.
Verfahren des Record Linkage
[Bearbeiten | Quelltext bearbeiten]Für ein exaktes Record Linkage werden fehlerfreie eindeutige Identifikatoren benötigt; schon eine unterschiedliche Schreibweise in einem Datenfeld führt zu einem Synonymfehler. Daher muss ein Record-Linkage-Verfahren bei möglicherweise fehlerbehafteten Daten eine mehr oder weniger ausgeprägte Fehlertoleranz aufweisen. Man spricht dann von stochastischem Record Linkage. Die Verfahren hierfür verwenden z. T. Methoden aus der Stochastik, aber auch aus der Klassifikationstheorie, der Mustererkennung und der künstlichen Intelligenz. Hauptsächliche Verfahrensklassen sind:
- regelbasierte Verfahren[6]; diese überprüfen Minimalanforderungen an die Übereinstimmung zweier Datensätze.
- distanzbasierte Verfahren[7]; diese verwenden String-Metriken wie die Levenshtein-Distanz oder andere Ähnlichkeitsmaße, die die Ähnlichkeiten von Zeichenketten beschreiben; sie können auf den Datensatz als Ganzes oder auf einzelne, insbesondere textuelle, Datenfelder angewendet werden.
- stochastische Verfahren; das klassische stochastische Verfahren geht auf Newcombe, Fellegi/Sunter und Jaro zurück[8]. Hier wird ein Maß für die Ähnlichkeit zweier Datensätze auf der Basis eines Maximum-Likelihood-Ansatzes gebildet.
Als Varianten dieser Verfahren werden verwendet
- Entscheidungsbaum-Methoden, eventuell verfeinert durch Boosting und Bagging[9],
- Support Vector Machines[10],
- EM-Verfahren (expectation-maximization)[11],
- künstliche neuronale Netze,
- Diskriminanzanalyse.
Bei vielen dieser Verfahren können lernende Algorithmen eingesetzt werden, wobei das Lernverfahren überwacht oder unüberwacht sein kann.
Da bei der Zusammenführung zweier umfangreicher Datenbestände sehr viele paarweise Vergleiche durchgeführt werden müssten, wird zur Verbesserung der Performance oft ein Blocking-Verfahren eingesetzt, das die Datensätze nach exakter Übereinstimmung in einigen Datenfeldern vorsortiert und dadurch die Anzahl der nötigen Paarvergleiche reduziert[12].
Datenschutzfreundliche Verfahren (PPRL)
[Bearbeiten | Quelltext bearbeiten]Das Ziel von PPRL-Verfahren des Datenlinkage ist das Record Linkage von personenbeziehbaren Daten, ohne die wahre Identität der betroffenen Personen aufzudecken. Dabei geht man von kryptographisch verschlüsselten Identifikatoren aus, oder allgemeiner von Pseudonymen, die die Identifikatoren ersetzen. Dies bedeutet für das exakte Datenlinkage keinerlei Einschränkung. Da aber schon minimal unterschiedliche Werte der Identifikatoren bei den gängigen Pseudonymisierungsverfahren zu vollkommen unterschiedlichen Pseudonymen führen, macht eine Pseudonymisierung die fehlertolerante Duplikaterkennung unmöglich. Ansätze zur Auflösung dieses Dilemmas sind:
- Einsatz eines Datentreuhänders, der besonderen rechtlichen und vertraglichen Bindungen unterliegt und den Abgleich mithilfe der Identifikatoren im Klartext vornimmt; dazu verwaltet er eindeutige Pseudonyme für die Fälle und die Zuordnungstabelle oder -regel zwischen Identifikatoren und Pseudonymen.
- Einen Schritt weiter gehen viele Krebsregister, indem aus verschiedenen Kombinationen von identifizierenden Merkmalen sogenannte Kontrollnummern erzeugt werden, von denen sich bei Datenfehlern nur einige ändern und die somit vom Datentreuhänder (hier Vertrauensstelle genannt) für einen ausreichend zuverlässigen Abgleich verwendet werden können[13].
- Eine weitere Verbesserung dieser Idee besteht in der Verwendung von Bloomfiltern anstelle der Kontrollnummern[14].
- Noch in der Erprobung befinden sich neuere Ansätze, die Methoden des sicheren verteilten Rechnens (Secure Multiparty Computation) verwenden[15].
Literatur
[Bearbeiten | Quelltext bearbeiten]- Hermann Brenner, Irene Schmidtmann: Determinants of homonym and synonym rates of record linkage in disease registration. In: Methods of Information in Medicine. Band 35, 1996, S. 19–24.
- Hermann Brenner, Irene Schmidtmann: Effects of record linkage errors on disease registration. In: Methods of Information in Medicine. Band 37, 1998, S. 69–74.
- Peter Christen: Data Matching – Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection. Springer Verlag, 2012. ISBN 978-3-642-31163-5.
- Peter Christen, Thilina Ranbaduge, Rainer Schnell: Linking Sensitive Data. Springer Verlag, 2020. ISBN 978-3-030-59705-4.
- Halbert L. Dunn: Record linkage. In: American Journal of Public Health. Band 36, 1946, S. 1412–1416. doi:10.2105/AJPH.36.12.1412.
- Matthew A. Jaro: Advances in record linkage methodology as applied to matching the 1985 census of Tampa, Florida. In: Journal of the American Statistical Association. Band 89, 1999, S. 414–420.
- Jutta Glock, Ralf Herold, Klaus Pommerening: Personal identifiers in medical research networks. In: GMS Medizinische Informatik, Biometrie und Epidemiologie. Band 2, Nr. 2, 2006, Doc 06.
- Stefanie March et al.: Gute Praxis Datenlinkage (GPD). In: Gesundheitswesen. Band 81, 2019, S. 636–650.
- Howard B. Newcombe: Handbook of Record Linkage. Oxford University Press, 1988. ISBN 978-0-19-261732-3
- Dinusha Vatsalan, Peter Christen, Vassilios S. Verykios: A taxonomy of privacy-preserving record linkage techniques. In: Information Systems. Band 38, 2013, S. 946–969. doi:10.1016/j.is.2012.11.005.
Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ Stefanie March et al: Quo Vadis Datenlinkage in Deutschland? Eine erste Bestandsaufnahme. In: Gesundheitswesen. Band 79, 2018, S. e20–e31, doi:10.1055/s-0043-125070.
- ↑ Bundeskrebsregisterdatengesetz. Bundesministerium für Gesundheit, abgerufen am 7. Mai 2022.
- ↑ Murat Sariyar, Andreas Borg, Klaus Pommerening: Evaluation of record linkage methods for iterative insertions. In: Methods of Information in Medicine. Band 48, 2009, S. 429–437.
- ↑ Stefanie March et al: Quo Vadis Datenlinkage in Deutschland? Eine erste Bestandsaufnahme. In: Gesundheitswesen. Band 79, 2018, S. e20–e31, doi:10.1055/s-0043-125070.
- ↑ Jörg Michael: Doppelgänger gesucht – Ein Programm für kontextsensitive phonetische Textumwandlung. In: c’t. Nr. 25, 1999, S. 52–61.
- ↑ Stefanie March et al: Quo Vadis Datenlinkage in Deutschland? Eine erste Bestandsaufnahme. In: Gesundheitswesen. Band 79, 2018, S. e20–e31, doi:10.1055/s-0043-125070.
- ↑ Stefanie March et al: Quo Vadis Datenlinkage in Deutschland? Eine erste Bestandsaufnahme. In: Gesundheitswesen. Band 79, 2018, S. e20–e31, doi:10.1055/s-0043-125070.
- ↑ Ivan P. Fellegi, Alan B. Sunter: A theory for record linkage. In: Journal of the American Statistical Association. Band 64, 1969, S. 1183–1210.
- ↑ Leo Breiman, Jerome H. Friedman, Richard A. Olshen, Charles J. Stone: Classification and Regression Trees. Routledge, New York 1984, ISBN 978-1-315-13947-0, doi:10.1201/9781315139470.
- ↑ Christopher J. C. Burges: A tutorial on support vector machines for pattern recognition. In: Data Mining and Knowledge Discovery. Band 2, 1998, S. 121–167.
- ↑ A. P. Dempster, N. M. Laird, D. B. Rubin: Maximum likelihood from incomplete data via the EM algorithm. In: Journal of the Royal Statistical Society B. Band 39, 1977, S. 1–38.
- ↑ Stefanie March et al: Quo Vadis Datenlinkage in Deutschland? Eine erste Bestandsaufnahme. In: Gesundheitswesen. Band 79, 2018, S. e20–e31.
- ↑ Klaus Pommerening, Michael Miller, Irene Schmidtmann, Jörg Michaelis: Pseudonyms for cancer registry. In: Methods of Information in Medicine. Band 35, 1996, S. 112–121.
- ↑ Rainer Schnell, Tobias Bachteler, Jörg Reiher: Entwicklung einer neuen fehlertoleranten Methode bei der Verknüpfung von personenbezogenen Datenbanken unter Gewährleistung des Datenschutzes. In: Methoden – Daten – Analysen. Band 3, 2009, S. 203–217.
- ↑ Rob Hall, Stephen E. Fienberg: Privacy-Preserving Record Linkage. In: J. Domingo-Ferrer, E. Magkos (Hrsg.): Privacy in Statistical Databases (PSD 2010). Lecture Notes in Computer Science. Band 6344. Springer, Berlin / Heidelberg 2010, S. 269–283, doi:10.1007/978-3-642-15838-4_24.