DWDS-Wortprofil
Einführung
Das DWDS-Wortprofil ist das Ergebnis einer statistischen Analyse sehr großer Korpora, welche mittels moderner neuronaler Technologie syntaktisch analysiert wurde. Es liefert kompakten Überblick über statistisch signifikante und damit typische Wortverbindungen. Beispiele hierfür sind Attribut-Nomen-Verbindungen wie schöne Bescherung oder Objekt-Verb-Verbindungen wie Flasche entkorken.
Methodischer Hintergrund
Mit dem DWDS-Wortprofil ist es möglich, auf strukturierte Weise Kookkurrenzinformationen zu nutzen, wobei immer ein Bezug zu den Korpusbelegen gegeben ist. Es werden Kookkurrenzen für verschiedene grammatische Relationen wie z. B. Subjekt, Objekt, Genitivattribut, Adjektivattribut, Präpositionalgruppe etc. angeboten. Die Kookkurrenzen sind mithilfe von computerlinguistischen Verfahren automatisch extrahiert. Als Korpusgrundlage dient das Korpus „Kernkorpus Basis“ (die Textbasis für das DWDS-Kernkorpus) zusammen mit überregional rezipierten Tages- und Wochenzeitungen, wodurch ein breites Spektrum an Kookkurrenzpartnern gewährleistet ist. Die Kookkurrenzpartner zu einem Abfragewort können wahlweise als Wortwolke oder als Tabelle dargestellt werden. Hierbei sind die Kookkurrenzpartner über ein Assoziationsmaß (logDice, weitere Informationen hierzu in Pavel Rychlý: A Lexicographer-Friendly Association Score) bewertet. Je größer der Wert des Assoziationsmaßes eines Kookkurrenzpaares ist, desto größer ist der Kookkurrenzpartner in der Wolke zu sehen bzw. desto höher ist der Rang des Kookkurrenzpartners in der Tabelle. Hierdurch werden stark miteinander assoziierte Kookkurrenzen hervorgehoben und sichtbar gemacht. Über die Wortwolken oder Tabellen kann dann über die Kookkurrenzpartner direkt auf die einzelnen Korpusbelege zugegriffen werden.
Mehrwortausdrücke und Vergleiche
Über das Wortprofil ist es zudem möglich, Verkettungen von Kollokationen, sogenannte Mehrwortausdrücke (MWA), zu finden, als auch zwei Wortprofile miteinander zu vergleichen. Für den Vergleich können sowohl Gemeinsamkeiten als auch Unterschiede hervorgehoben werden. Bei den Gemeinsamkeiten werden zu zwei Abfragewörtern die Kookkurrenzpartner angezeigt, die beide Abfragewörter teilen und die mit mindestens einem der beiden stark assoziiert sind. Dahingegen werden bei den Unterschieden die Kookkurrenzpartner angezeigt, die in ihrer Assoziation zu den beiden Abfragewörtern stark abweichen.
Datenstand
Die aktuelle Version ist das „Wortprofil 2024v2“: dieses basiert auf Korpora im Umfang von etwa 16 Millionen Texten mit 383 Millionen Sätzen und 8 Milliarden Textwörtern. Das Wortprofil bietet für 500 000 Lemmaformen (Abfragewörter) insgesamt 25 Millionen verschiedene Kookkurrenzen mit über 1 Milliarde Korpustreffern. Abrufbar sind nur Kollokationen, die statistisch signifikant sind, also eine Mindestfrequenz von fünf und einen logDice-Wert größer Null haben.
Zusammensetzung des DWDS-Wortprofils
Das DWDS-Wortprofil wurde auf der Basis der folgenden Korpora erstellt:
- BILD (1997–2023)
- Frankfurter Allgemeine Zeitung (1993–2023)
- Frankfurter Rundschau (1995–2024)
- Neue Osnabrücker Zeitung (2012–2024)
- Neue Zürcher Zeitung (1993–2024)
- Süddeutsche Zeitung (1992–2024)
- Der Tagesspiegel (2005–2024)
- Die Welt (1999–2023)
- Die ZEIT (1946–2023)
- Wikipedia (2024)
- Teile des sog. DWDS-Kernkorpus Basis (Grundlage für das DWDS-Kernkorpus und das DWDS-Kernkorpus 21) (1884–2010)
- Teile des ZDL-Regionalkorpus (1993–2024)
Als empirische Grundlage für das DWDS-Wortprofil dienen somit zum einen überregional rezipierte, aktuelle Tages- und Wochenzeitungen und zum anderen Texte aus Belletristik, Gebrauchsliteratur, Wissenschaft und Presse aus dem Korpus „Kernkorpus Basis“, die bis zum frühen 20. Jahrhundert zurückgehen.
Danksagung
Für die Einräumung der entsprechenden Nutzungsrechte möchten wir uns bei den Verlagen der hier aufgeführten Zeitungen bedanken. Ein besonderer Dank geht an die GBI-Genios Deutsche Wirtschaftsdatenbank GmbH, die die bisweilen langwierigen Rechteverhandlungen mit den Zeitungsverlagen sehr zielgerichtet und im Sinne unseres Projektes geführt hat und für die digitale Bereitstellung der Zeitungsdaten sorgt (mit Ausnahme der „Süddeutschen Zeitung“). Bedanken möchten wir uns ebenfalls bei der Dokumentations- und InformationsZentrum München GmbH (DIZ) für die Einräumung der Nutzungsrechte sowie die Bereitstellung der digitalen Daten der „Süddeutschen Zeitung“. Wir danken der Axel Springer Syndication GmbH für die Bereitstellung von Presseartikeln aus der „BILD“-Zeitung für die Nutzung im DWDS.
Weitere Informationen
- Der Code für das Wortprofil-Backend ist auf GitHub zu finden.
- Im Juni 2023 ist eine verbesserte Fassung des DWDS-Wortprofils veröffentlicht worden. Mehr dazu lesen Sie in unserem Blogbeitrag: Typische Wortverbindungen – DWDS-Wortprofil in neuer Version.
- Didakowski, Jörg und Alexander Geyken (2014): From DWDS corpora to a German word profile – methodological problems and solutions. In: OPAL – Online publizierte Arbeiten zur Linguistik 2/2014, S. 39–47. [PDF]
- Geyken, Alexander (2011): Statistische Wortprofile zur schnellen Analyse der Syntagmatik in Textkorpora. In: A. Abel & R. Zanin (Eds.), Korpora in Lehre und Forschung (pp. 115–137). Bozen, Italien: Bozen University Press. [PDF]
Versionen
Wortprofil 2024v2 | seit 21.11.2024 |
Wortprofil 2024v1 | 10.04.2024 bis 21.11.2024 |
Wortprofil 2023 | 08.06.2023 bis 10.04.2024 |