Der deutsche Wortschatz von 1600 bis heute.

DWDS-Kernkorpus (1900–1999)

Das DWDS-Kernkorpus des 20. Jahrhunderts ist ein nach Textsorten und zeitlich über das gesamte Jahrhundert ausgewogenes Korpus. Die Auswahl der Texte wurde von der Arbeitsgruppe DWDS und Mitgliedern der Berlin-Brandenburgischen Akademie der Wissenschaften begleitet und begutachtet. Ziel war es, dem Ideal der Repräsentativität möglichst nahe zu kommen, und ein lexikografisches Korpus zusammenzustellen, das als ausgewogen und hinreichend groß in Bezug auf den Forschungsgegenstand „deutscher Wortschatz des 20. Jahrhunderts“ bewertet werden kann.

Zur bibliografischen Datenbank des DWDS-Kernkorpus …

Der Aufbau des DWDS-Kernkorpus wurde von der Deutschen Forschungsgemeinschaft in den Jahren 2000 bis 2003 gefördert. Die Annotation der Daten und Metadaten erfolgt in XML nach den TEI-Richtlinien. Die meisten Texte des DWDS-Kernkorpus sind urheberrechtlich geschützt. Die Texte als Ganzes können nicht heruntergeladen werden. Die Suche nach Textzitaten ist über die Webseite kostenfrei möglich.

Das DWDS-Kernkorpus besteht aus den 4 Textsorten Belletristik, Gebrauchsliteratur, Wissenschaft und Zeitung. Für die Textsorte Gesprochene Sprache konnte keine vollständige zeitliche Ausgewogenheit erreicht werden. Diese Textsorte steht als eigenständiges Korpus (unter Spezialkorpora) zur Verfügung. Für alle anderen vier Textsorten konnte hingegen ein ausgewogenes Korpus mit einer Größe von etwa 100 Millionen Textwörtern (120 Millionen Tokens) erstellt werden. Das Verhältnis der Textsorten der auf der Webseite veröffentlichten Version des DWDS-Kernkorpus ist wie folgt:

  • Belletristik: 26,35 %,
  • Zeitung: 27,29 %,
  • Wissenschaft: 24,59 % und
  • Gebrauchsliteratur: 21,77 %.

Weitere Zahlen (Stand: 2020-01-15):

  • 79 116 Dokumente
  • 121 397 601 Tokens gesamt
  • 100 897 420 Tokens ohne Satz-/Sonderzeichen, Nichtworte und Zahlen
  • 1 940 737 Types (= Lemmata)
  • 1 849 245 Types ohne Satz-/Sonderzeichen, Nichtworte und Zahlen

Für die Recherche konnten mit über 20 Verlagen Nutzungsvereinbarungen erzielt werden, insbesondere mit dem Aufbau-Verlag, dem Diogenes-Verlag, dem Eichborn-Verlag, der S.-Fischer-Verlagsgruppe, Hoffmann & Campe, Kiepenheuer & Witsch, dem K.G.-Saur-Verlag, dem SPIEGEL, Suhrkamp, Ullstein, der ZEIT sowie öffentlichen und privaten Textgebern (z. B. dem Deutschen Rundfunkarchiv und der Digitalen Bibliothek). Somit kann das Projekt z. B. Werke von Thomas und Heinrich Mann, Martin Walser, Heinrich Böll, Jürgen Habermas oder Victor Klemperer für die wortbezogene Internetrecherche zur Verfügung stellen.

Wir stellen momentan folgende Version des Kernkorpus der deutschen Sprache des 20. Jahrhunderts für Ihre Recherchen bereit:

  • Version 1 vom Mai 2005 (nicht mehr recherchierbar),
  • Version 2 vom Juli 2008 (nicht mehr recherchierbar), und
  • Version 3 vom Mai 2018 über die Webseite www.dwds.de (aktuelle Version).

Die jeweilige Textbasis dieser Versionen des Kernkorpus bleibt unverändert und steht Ihnen damit als stabile Referenz für ihre Recherchen und Forschungsergebnisse zur Verfügung.

Beachten Sie jedoch, dass die linguistischen Annotationen (Lemmatisierung, Wortarten) der Version 3 regelmäßig aktualisiert werden. Dies bedeutet, dass alle Abfragen, die auf linguistischen Annotationen beruhen, je nach Zeitpunkt der Recherche leicht unterschiedliche Ergebnisse liefern können. Verwenden Sie daher, wenn die Abfrage persistente Ergebnisse liefern soll, den „literalen“ Operator @. Auch hier gilt jedoch eine Einschränkung: Da sich mit der linguistischen Annotation auch die Tokenisierung ändern kann, kann es auch hier zu Änderungen des Abfrageergebnisses kommen. Diese Änderungen sind jedoch marginal.

Beispiele:

  • Abkürzungen: "5." = Kardinalzahl + Satzende oder Ordinalzahl,
  • Zusammenziehungen von mehreren Wörtern: "ist's" = ist + 's (2 Tokens)

Weitere Informationen