Deutscher Wortschatz / Leipzig Corpora Collection

Umfangreiche Textdaten sind das Fundament für alle modernen Verfahren im Bereich der Automatischen Sprachverarbeitung (Natural Language Processing). Sie sind Grundlage für eine Vielzahl von Anwendungen zur Informationsextraktion, für die Erstellung leistungsfähiger Sprachmodelle (Large Language Models, LLMs) und weiterer Verfahren des maschinellen Lernens. Die Leistungsfähigkeit und Qualität von Wort- und Dokumenten-Embeddings oder moderner Transformer-Modelle ergibt sich unmittelbar aus dem Umfang und der Qualität der verwendeten Textressourcen.

Das Projekt „Deutscher Wortschatz / Leipzig Corpora Collection“ sammelt seit Mitte der 1990er Jahre digitale Texte und stellt diese seit 1998 online zur Verfügung. Es unterhält seit über 20 Jahren eine der größten deutschsprachigen Online-Textsammlungen mit Fokus auf Nachrichten im Umfang von zuletzt rund 100 Mrd. Token bereinigten Fließtexts jährlich. Dazu werden kontinuierlich frei verfügbare Dokumente im Internet gesammelt und aufbereitet. Das Ergebnis sind unter anderem korpusbasierte Wörterbücher mit einer Vielzahl linguistischer und sprachstatistischer Annotationen sowie umfangreiche Textkorpora, die für viele der gesammelten Sprachen die jeweils größten frei verfügbaren Datenmengen darstellen.

Durch den großen Umfang der zugrunde liegenden Datenbestände von bis zu mehreren hundert Millionen Sätzen je Sprache (nach Deduplizierung) finden sich in den Ressourcen des Projektes statistische Angaben für fast alle Wörter und linguistischen Phänomene. Das Angebot zählt zu den umfangreichsten Informationssystemen zur deutschen Sprache und wird kontinuierlich um weitere Sprachen erweitert. Mittlerweile liegen Daten für mehr als 250 Sprachen vor, die größtenteils online über Webportale, über Webservices oder im Rahmen der Leipzig Corpora Collection (LCC) als Normgrößenkorpora per Download abgefragt werden können. Zur Wahrung der Urheberrechte und des Datenschutzes werden die zugrunde liegenden Textkorpora als randomisierte Satzlisten zur Verfügung gestellt, aus denen die ursprünglichen Volltexte nicht rekonstruierbar sind. Alle enthaltenen Belege sind über Metadaten dem jeweiligen Originalartikel zuordenbar.

Mit Inkrafttreten des Gesetzes zur Anpassung des Urheberrechts an die Erfordernisse des digitalen Binnenmarktes ab Juni 2021 und der damit verbundenen Einführung bzw. Anpassungen der §§ 44b und 60d UrhG ist das Verarbeiten von rechtmäßig online bezogenen Volltexten für das Text und Data Mining zu wissenschaftlichen Zwecken grundsätzlich zulässig. Seither kann das Wortschatz-Projekt im Rahmen der gesetzlichen Regelungen zur gemeinsamen wissenschaftlichen Forschung qualifizierten Partnern auch Volltexte zur Verfügung stellen.

Forschende können sich bei Bedarf für spezielle, nicht über die öffentlichen Angebote verfügbare Datensätze auch direkt an das Projekt wenden. Viele Forschungsvorhaben konnten dadurch bereits mit speziell ausgewählten und aufbereiteten Sprachressourcen aus dem Wortschatz-Projekt unterstützt werden.

Das Projekt ”Deutscher Wortschatz / Leipzig Corpora Collection“ wird von der Sächsischen Akademie der Wissenschaften (SAW Leipzig), der Universität Leipzig und dem Institut für Angewandte Informatik (InfAI) e. V. getragen.

Arbeiten am InfAI

  • Bereitstellung von Ressourcen des Wortschatz-Projekts für Text und Data Mining zu Zwecken der wissenschaftlichen Forschung
  • Anwendungsbezogene Weiterentwicklung von Text Mining Verfahren
  • eine mögliche Lieferung von speziell im Auftrag gerechneten Daten für kommerzielle Anwendungen
Laufzeit
1994 – heute

Kontakt am InfAI

Prof. Dr. Gerhard Heyer
Telefon: +49 341 97322 31
E-Mail: heyer@infai.org

Institut für Angewandte Informatik (InfAI) e. V.
An-Institut der Universität Leipzig
Goerdelerring 9 ⎥ 04109 Leipzig

Projektbeteiligte

©InfAI 2024

Institut für Angewandte Informatik (InfAI) e. V.

InfAI Infinity GmbH

InfAI Management GmbH

Goerdelerring 9
04109 Leipzig
Deutschland

Impressum

Datenschutzerklärung