Foundation model Assessment via Benchmarks and Interactive Analysis with Natural dialogue (FABIAN)

Ziel des Projekts ist die Entwicklung innovativer Forschungs- und Ent-wicklungsleistungen innerhalb einer wettbewerblichen Challenge, die ei-ne ganzheitliche Evaluation generativer Foundation Models im sicher-heitsrelevanten Kontext ermöglicht. Als exemplarischer Anwendungsbe-reich dient das Geoinformationswesen, für das alle vorgegebenen Use Cases anhand bereitgestellter Daten zu bearbeiten sind.

FABIAN ist Teil des PCP-Verfahrens der Agentur für Innovation in der Cy-bersicherheit GmbH (Cyberagentur), einem europaweit etablierten, pha-senorientierten Modell zur Beschaffung von F&E-Leistungen, bei dem mehrere Auftragnehmer parallel Lösungen bis TRL 4 entwickeln und um den Einzug in die nächste Projektphase konkurrieren. Im Leistungszeit-raum ab November 2025 entstehen wissenschaftliche Publikationen und Studien, Benchmarks zu allen Use Cases inklusive holistischer Bewer-tung, ein Demonstrator bzw. Modell-Ensemble auf Basis eines oder meh-rerer Foundation Models sowie begleitende Workshops mit den beteilig-ten Bedarfsträgern.

Ein Schwerpunkt von FABIAN liegt auf Anwendungsfällen, in denen KI nicht nur Texte verarbeitet, sondern auch visuelle Informationen inter-pretieren muss. Das betrifft unter anderem die Arbeit mit Karten- und Geodaten. Ziel ist es, Bewertungskriterien, Datensätze und Testmetho-den zu entwickeln, die solche multimodalen Aufgaben abdecken – von der Qualitätsmessung einzelner Komponenten bis hin zur Bewertung ei-nes integrierten Systems.

Im Projekt werden mehrere Bausteine zusammengeführt:

  • Benchmark-Suite und Metriken: FABIAN entwickelt Messgrößen und Tests, um u. a. Faktentreue, Robustheit und Zuverlässigkeit gene-rativer Modelle bewerten zu können – auch in multimodalen Aufga-benstellungen.
  • Reproduzierbare Daten- und Evaluationspipelines: Eine kuratierte Datenbasis mit Ground-Truth-Anteilen sowie dokumentierte Abläufe sollen sicherstellen, dass Ergebnisse nachvollziehbar und wieder-holbar sind.
  • Integrierter Demonstrator: Ergänzend entsteht ein Prototyp, der Modelle und Datenquellen über Schnittstellen anbindet und die entwickelten Benchmarks zur kontinuierlichen Evaluation nutzt.

Projektteam am InfAI

  • Prof. Dr. Gerhard Heyer (Koordinator)
  • Dr. Lydia Müller (stellvertretende Koordinatorin)
  • Prof. Dr. Erik Buchmann
  • Prof. Dr. Bogdan Franczyk
  • Prof. Dr. Gerik Scheuermann
  • Dr. Christoph Augenstein
  • Dr. Daniel Wiegreffe
  • Yves Annanias
  • Johannes Heinz
  • Victor Jüttner
  • Julian Oestreich
  • Silvia Oviedo
Laufzeit
11/2025-11/2028

Finanziert durch die Agentur für Innovation in der Cybersicherheit GmbH (Cyberagentur) im Rahmen des Forschungsprogramms HEGEMON.