Foundation model Assessment via Benchmarks and Interactive Analysis with Natural dialogue (FABIAN)

Ziel des Projekts ist die Entwicklung innovativer Forschungs- und Entwicklungsleistungen innerhalb einer wettbewerblichen Challenge, die eine ganzheitliche Evaluation generativer Foundation Models im sicherheitsrelevanten Kontext ermöglicht. Als exemplarischer Anwendungsbereich dient das Geoinformationswesen, für das alle vorgegebenen Use Cases anhand bereitgestellter Daten zu bearbeiten sind.

FABIAN ist Teil des PCP-Verfahrens der Agentur für Innovation in der Cybersicherheit GmbH (Cyberagentur), einem europaweit etablierten, phasenorientierten Modell zur Beschaffung von F&E-Leistungen, bei dem mehrere Auftragnehmende parallel Lösungen bis TRL 4 entwickeln und um den Einzug in die nächste Projektphase konkurrieren. Im Leistungszeitraum ab November 2025 entstehen wissenschaftliche Publikationen und Studien, Benchmarks zu allen Use Cases inklusive holistischer Bewertung, ein Demonstrator bzw. Modell-Ensemble auf Basis eines oder mehrerer Foundation Models sowie begleitende Workshops mit den beteiligten Bedarfstragenden.

Ein Schwerpunkt von FABIAN liegt auf Anwendungsfällen, in denen KI nicht nur Texte verarbeitet, sondern auch visuelle Informationen interpretieren muss. Das betrifft unter anderem die Arbeit mit Karten- und Geodaten. Ziel ist es, Bewertungskriterien, Datensätze und Testmethoden zu entwickeln, die solche multimodalen Aufgaben abdecken – von der Qualitätsmessung einzelner Komponenten bis hin zur Bewertung eines integrierten Systems.

Im Projekt werden mehrere Bausteine zusammengeführt:

Benchmark-Suite und Metriken: FABIAN entwickelt Messgrößen und Tests, um u. a. Faktentreue, Robustheit und Zuverlässigkeit gene-rativer Modelle bewerten zu können – auch in multimodalen Aufga-benstellungen.
Reproduzierbare Daten- und Evaluationspipelines: Eine kuratierte Datenbasis mit Ground-Truth-Anteilen sowie dokumentierte Abläufe sollen sicherstellen, dass Ergebnisse nachvollziehbar und wiederholbar sind.
Integrierter Demonstrator: Ergänzend entsteht ein Prototyp, der Modelle und Datenquellen über Schnittstellen anbindet und die entwickelten Benchmarks zur kontinuierlichen Evaluation nutzt.

Projektteam am InfAI

Prof. Dr. Gerhard Heyer (Koordinator)
Dr. Lydia Müller (stellvertretende Koordinatorin)
Prof. Dr. Erik Buchmann
Prof. Dr. Bogdan Franczyk
Prof. Dr. Gerik Scheuermann
Dr. Christoph Augenstein
Dr. Daniel Wiegreffe
Yves Annanias
Johannes Heinz
Victor Jüttner
Julian Oestreich
Silvia Oviedo



Laufzeit
11/2025-11/2028

Finanziert durch die Agentur für Innovation in der Cybersicherheit GmbH (Cyberagentur) im Rahmen des Forschungsprogramms HEGEMON.

Foundation model Assessment via Benchmarks and Interactive Analysis with Natural dialogue (FABIAN)

Projektteam am InfAI

Laufzeit11/2025-11/2028

Laufzeit
11/2025-11/2028