Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Vorschlag für Handhabung von mehrfach-transformierten Metadaten #17

Open
wants to merge 1 commit into
base: master
Choose a base branch
from

Conversation

lvg42
Copy link

@lvg42 lvg42 commented Nov 14, 2013

Dubletten von transformierten Metadaten werden über die 'metadata_original_id' identifiziert. In diesem Fall werden durch den Autor ('author') bereitgestellte Metadaten bevorzugt.

Siehe Screenshot. govdata_harvesting

Viele Grüße

Jürgen Weichand

@konradreiche
Copy link
Contributor

@lvg42 Vielen Dank für den Vorschlag, das sieht vielversprechend aus. Wer hätte denn die Autorität darüber ob ein geharvester Datensatz auf metadata_transformer = author und nicht metadata_transformer = harvester gestezt wird?

@the42
Copy link

the42 commented Dec 11, 2013

Wir in Ö haben das dadurch gelöst, dass die eindeutige ID des originären Systems immer mitübernommen werden muss. Indem die Daten digital sind, unterscheiden wir damit effektiv nicht zwischen Kopie und original. Dubletten gibt es damit nicht. Ich hoffe ich habe die Diskussion so richtig verstanden ....

@konradreiche
Copy link
Contributor

@the42 Dieses Feld existiert bereits in unserem Schema: metadata_original_id. Das Problem ist nur, siehe Beispiel oben, wenn es einen weiteren Datenaggregator gibt (geportal.de). Beide Portale, geoportal.de und opendata.bayern.de haben nun einen Datensatz der dieselbe metadata_original_id hat.

Bei GovData.de steht dann aus, soll nun der Datensatz von Portal A oder Portal B bevorzugt werden?

@the42
Copy link

the42 commented Jan 23, 2014

Klar, dass ist ein Problem. Eventuell per timestamp überprüfen, welcher der beiden der "jüngere" ist, oder eine Präferenz kodieren.

@lvg42
Copy link
Author

lvg42 commented Jan 24, 2014

In diesem Fall existieren zwei unterschiedliche Transformationen (Umformung der Metadaten zwischen unterschiedlichen Metadatenmodellen):

Transformation A

  • ISO 19139 (geoportal.bayern.de) nach OGD (opendata.bayern.de)

Transformation B

  • ISO 19139 (geoportal.de) nach OGD (govdata.de)

Beide Transformationen liefern unterschiedliche Ergebnisse und somit keine "Kopien".
Die Transformation zwischen den bayerischen Portalen ist speziell auf das bayerische ISO 19139 Profil abgestimmt und somit detailreicher. Aus diesem Grund habe ich die Einführung der Enum metadata_transformer vorgeschlagen, um die Präferenz steuern zu können.

Regeln:

  • Doppelte Beschreibungen werden über das Attribut metadata_original_id erkannt.
  • Grundsätzlich wird in diesem Fall immer die jüngere Beschreibung gewählt.
  • Ausnahme: Das Attribut metadata_transformer ist vorhanden und hat den Wert author.

Viele Grüße
Jürgen Weichand

@konradreiche
Copy link
Contributor

@lvg42 Danke für die Klärung Herr Weichand. Mir ist erst durch ihre Erklärung klar geworden, dass es sich nicht um Kopien handelt durch die unterschiedliche Abbildung des Metadatenformats CSW nach CKAN. Das Hinzufügen eines solchen Feldes wird in der nächsten Datenbereitstellerkonferenz besprochen.

konradreiche added a commit that referenced this pull request Feb 11, 2014
A new field is added to prevent possible duplicates which can result
from harvesting other endpoints but CKAN. For instance, a CSV harvester
has to perform a metadata mapping. If different portals do that it
becomes unclear who 'owns' the dataset and which portal should be
prioritized when harvesting these duplicates. See #17.

Signed-off-by: Konrad Reiche <[email protected]>
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

None yet

3 participants