Fundierte Spachmodelle auf der Grundlage proprietärer Daten (CORAL)

Das Projekt CORAL erforscht Methoden zur Entwicklung und Nutzung von Sprachmodellen (LLMs) unter rechtlichen, technischen und qualitativen Vorgaben. Im Fokus stehen die Nachvollziehbarkeit generierter Texte und die Nutzung geschützter Daten durch Constrained Training und Retrieval-Augmented Generation. CORAL nutzt Daten der Deutschen Nationalbibliothek, des Internet Archive, Common Crawl und des Wortschatz Leipzig und Finanzdaten. Ziel ist, rechtlich einwandfreie Methoden zur Obfuskierung und Nutzung dieser Daten zu entwickeln. Forschungsfragen betreffen robuste Trainingsverfahren, ressourcenschonende Modelle, effektive Obfuskierung und Transparenz generierter Texte. Das Projekt stärkt die Etablierung eines deutschen Marktes für Sprachmodelle.

Arbeiten am InfAI

Das Entwickeln, Trainieren und Erforschen von Sprachmodellen unter rechtlichen, technischen und qualitativen Constraints.

Ziele:

  • Entwicklung transparenter, effizienter und rechtlich konformer Sprachmodelle (LLMs) auf Basis größtenteils proprietärer Daten
  • Erforschen von Möglichkeiten und Grenzen der Datenobfuskierung, der Löschung und des gezielten „Verlernens“ von Informationen

Datenquellen:

  • Webdaten, Verlagspublikationen, Fachwissen, darunter Bestände der Deutschen Nationalbibliothek
  • Strukturtreue Erschließung von Dokumenten­sammlungen (elektronische Publikationen)

Untersuchungsschwerpunkte:

  • Alternative, effizientere LLM-Architekturen
  • Möglichkeiten der Datenobfuskierung
  • Datenqualität und Trainingszeit
  • Integration von Strukturinformationen
  • Löschen/Inhibieren von Informationen: Gezieltes „Verlernen“ überholter oder unerwünschter Informationen
  • Evaluierung und Generalisierung: Anwendungsorientierte Benchmarks in Kooperation mit Partnern

Projektteam am InfAI

  • Prof. Dr. Gerhard Heyer
  • Christopher Schröder
  • und weitere
Laufzeit:
10/2024-09/2027
Förderkennzeichen:
01IS24077A

Projektbeteiligte

  • Universität Kassel
  • Hochschule Anhalt (HSA)
  • Deutsche Nationalbibliothek (DNB)
  • Institut für Angewandte Informatik (InfAI) e.V.