Onderzoekers waarschuwen voor misleidende evaluatiemethoden van geautomatiseerde AI-systemen die modellen uitleggen.

Een nieuw onderzoek gepubliceerd op arXiv werpt licht op fundamentele problemen bij het evalueren van geautomatiseerde interpretabiliteitssystemen. Deze AI-agents zijn ontworpen om de werking van complexe AI-modellen uit te leggen zonder menselijke tussenkomst, maar hun beoordeling blijkt lastiger dan verwacht.
De ontwikkeling van interpretabiliteitssystemen heeft een snelle evolutie doorgemaakt. Waar vroeger eenvoudige, vooraf gedefinieerde workflows werden gebruikt, zetten onderzoekers nu in op volledig autonome AI-agents die gebruik maken van grote taalmodellen (LLM's). Deze systemen kunnen zelfstandig experimenten ontwerpen en hypotheses verfijnen om de werking van AI-modellen te doorgronden.
De onderzoekers ontwikkelden een agentic systeem dat zich richt op geautomatiseerde circuitanalyse - het uitleggen van de rollen van modelcomponenten bij specifieke taken. Het systeem werkt iteratief: het ontwerpt experimenten, analyseert resultaten en past zijn hypotheses dienovereenkomstig aan.
In eerste instantie leek het systeem veelbelovend te presteren. Toen het werd getest tegen zes circuitanalyse-taken uit de literatuur, waarbij de resultaten werden vergeleken met uitleg van menselijke experts, toonde het competitieve prestaties. Deze schijnbare successen maskeerden echter diepere problemen.
Bij nadere bestudering identificeerden de onderzoekers drie belangrijke problemen met op replicatie gebaseerde evaluatie:
Subjectiviteit van expertuitleg: Menselijke experts kunnen subjectieve of onvolledige verklaringen geven, waardoor de benchmark mogelijk niet betrouwbaar is. Wat als gouden standaard wordt beschouwd, kan in werkelijkheid variëren tussen verschillende experts.
Verborgen onderzoeksproces: Evaluaties die zich alleen richten op eindresultaten negeren het onderliggende onderzoeksproces. Dit kan misleidend zijn omdat het systeem wellicht de juiste conclusies trekt via verkeerde redenering.
Memorisatie versus begrip: LLM-gebaseerde systemen kunnen gepubliceerde bevindingen reproduceren door memorisatie of geïnformeerd raden, in plaats van werkelijk begrip van de onderliggende mechanismen. Dit ondermijnt de validiteit van de evaluatie.
Om deze problemen aan te pakken, stellen de onderzoekers een nieuwe, onbewaakte intrinsieke evaluatiemethode voor. Deze benadering is gebaseerd op de functionele uitwisselbaarheid van modelcomponenten - het idee dat componenten met vergelijkbare functies onderling uitwisselbaar zouden moeten zijn.
Deze methode vermijdt enkele van de valkuilen van traditionele evaluatie door niet af te hangen van mogelijk bevooroordeelde menselijke referenties en door zich te concentreren op de onderliggende functionaliteit in plaats van oppervlakkige overeenkomsten.
Dit onderzoek heeft belangrijke implicaties voor de evaluatie van complexe AI-systemen in het algemeen. Naarmate AI-systemen autonomer worden, moeten ook de evaluatiemethoden meegroeien in sophisticatie. De bevindingen suggereren dat traditionele benchmarking-methoden mogelijk ontoereikend zijn voor de nieuwe generatie AI-agents.
De studie benadrukt de noodzaak van meer robuuste evaluatiekaders die niet alleen naar eindresultaten kijken, maar ook het onderzoeksproces en de onderliggende redenering in kaart brengen. Dit is cruciaal voor het ontwikkelen van betrouwbare geautomatiseerde interpretabiliteitssystemen die daadwerkelijk bijdragen aan ons begrip van AI-modellen.

Nieuw AI-systeem voorspelt minimaal benodigde beeldresolutie voor visuele taalmodellen, wat tot 80% minder rekenkracht kan opleveren.

Nieuwe techniek gebruikt superklassen om AI-modellen robuuster te maken tegen misleidende patronen zonder handmatige labels.

Nieuw onderzoek toont aan dat de structuur van woordenschat crucialer is dan vrije woordvolgorde voor hoe AI-modellen talen leren.