Foundation model Assessment via Benchmarks and Interactive Analysis with Natural dialogue (FABIAN)
Ziel des Projekts ist die Entwicklung innovativer Forschungs- und Entwicklungsleistungen innerhalb einer wettbewerblichen Challenge, die eine ganzheitliche Evaluation generativer Foundation Models im sicherheitsrelevanten Kontext ermöglicht. Als exemplarischer Anwendungsbereich dient das Geoinformationswesen, für das alle vorgegebenen Use Cases anhand bereitgestellter Daten zu bearbeiten sind.
FABIAN ist Teil des PCP-Verfahrens der Agentur für Innovation in der Cybersicherheit GmbH (Cyberagentur), einem europaweit etablierten, phasenorientierten Modell zur Beschaffung von F&E-Leistungen, bei dem mehrere Auftragnehmende parallel Lösungen bis TRL 4 entwickeln und um den Einzug in die nächste Projektphase konkurrieren. Im Leistungszeitraum ab November 2025 entstehen wissenschaftliche Publikationen und Studien, Benchmarks zu allen Use Cases inklusive holistischer Bewertung, ein Demonstrator bzw. Modell-Ensemble auf Basis eines oder mehrerer Foundation Models sowie begleitende Workshops mit den beteiligten Bedarfstragenden.
Ein Schwerpunkt von FABIAN liegt auf Anwendungsfällen, in denen KI nicht nur Texte verarbeitet, sondern auch visuelle Informationen interpretieren muss. Das betrifft unter anderem die Arbeit mit Karten- und Geodaten. Ziel ist es, Bewertungskriterien, Datensätze und Testmethoden zu entwickeln, die solche multimodalen Aufgaben abdecken – von der Qualitätsmessung einzelner Komponenten bis hin zur Bewertung eines integrierten Systems.
Im Projekt werden mehrere Bausteine zusammengeführt:
- Benchmark-Suite und Metriken: FABIAN entwickelt Messgrößen und Tests, um u. a. Faktentreue, Robustheit und Zuverlässigkeit gene-rativer Modelle bewerten zu können – auch in multimodalen Aufga-benstellungen.
- Reproduzierbare Daten- und Evaluationspipelines: Eine kuratierte Datenbasis mit Ground-Truth-Anteilen sowie dokumentierte Abläufe sollen sicherstellen, dass Ergebnisse nachvollziehbar und wiederholbar sind.
- Integrierter Demonstrator: Ergänzend entsteht ein Prototyp, der Modelle und Datenquellen über Schnittstellen anbindet und die entwickelten Benchmarks zur kontinuierlichen Evaluation nutzt.
Projektteam am InfAI
- Prof. Dr. Gerhard Heyer (Koordinator)
- Dr. Lydia Müller (stellvertretende Koordinatorin)
- Prof. Dr. Erik Buchmann
- Prof. Dr. Bogdan Franczyk
- Prof. Dr. Gerik Scheuermann
- Dr. Christoph Augenstein
- Dr. Daniel Wiegreffe
- Yves Annanias
- Johannes Heinz
- Victor Jüttner
- Julian Oestreich
- Silvia Oviedo
Laufzeit
11/2025-11/2028
Finanziert durch die Agentur für Innovation in der Cybersicherheit GmbH (Cyberagentur) im Rahmen des Forschungsprogramms HEGEMON.
