Onderzoekers onthullen dat geavanceerde AI-modellen die met audio werken hoofdzakelijk afhankelijk zijn van tekst in plaats van daadwerkelijk geluid te analyseren.

Een nieuw onderzoek toont aan dat geavanceerde AI-modellen die zowel audio als tekst kunnen verwerken, ondanks indrukwekkende prestaties op spraakbenchmarks, voornamelijk afhankelijk blijven van tekstuele informatie in plaats van daadwerkelijk geluidssignalen te analyseren.
Onderzoekers hebben de DEAF-benchmark (Diagnostic Evaluation of Acoustic Faithfulness) ontwikkeld om systematisch te onderzoeken hoe Audio Multimodale Large Language Models (Audio MLLMs) daadwerkelijk functioneren. Deze benchmark bevat meer dan 2.700 conflictstimuli die drie akoestische dimensies bestrijken:
De onderzoekers ontwikkelden een gecontroleerd evaluatiekader met meerdere niveaus dat geleidelijk de tekstuele invloed verhoogt. Dit loopt van semantische conflicten in de inhoud tot misleidende prompts en combinaties daarvan. Deze aanpak stelt hen in staat om onderscheid te maken tussen inhoud-gedreven vooringenomenheid en prompt-geïnduceerde volgzaamheid.
Het onderzoeksteam introduceerde speciale diagnostische meetmethoden om de afhankelijkheid van modellen van tekstuele signalen ten opzichte van akoestische signalen te kwantificeren. Deze meetmethoden bieden concrete data over hoe modellen beslissingen nemen.
Bij de evaluatie van zeven verschillende Audio MLLMs ontdekten de onderzoekers een consistent patroon van tekstdominantie. Hoewel de modellen wel gevoelig blijken voor akoestische variaties, worden hun voorspellingen voornamelijk gedreven door tekstuele inputs.
De bevindingen onthullen een significante kloof tussen hoge prestaties op standaard spraakbenchmarks en daadwerkelijk akoestisch begrip. Dit suggereert dat huidige evaluatiemethoden mogelijk niet volledig weerspiegelen hoe goed AI-modellen geluid daadwerkelijk begrijpen.
Deze ontdekking heeft belangrijke implicaties voor de ontwikkeling van AI-systemen die audio verwerken. Het toont aan dat ondanks indrukwekkende prestaties op bestaande tests, deze modellen mogelijk niet zo goed zijn in het daadwerkelijk 'horen' en begrijpen van geluidssignalen als gedacht.
De DEAF-benchmark biedt ontwikkelaars een nieuw instrument om de werkelijke akoestische vaardigheden van hun modellen te testen en te verbeteren. Dit kan leiden tot meer genuïne audio-intelligentie in toekomstige AI-systemen.
De resultaten onderstrepen de noodzaak voor verder onderzoek naar hoe AI-modellen kunnen worden getraind om daadwerkelijk te luisteren naar en te leren van akoestische signalen, in plaats van zich te verlaten op tekstuele shortcuts.

Nieuw AI-systeem voorspelt minimaal benodigde beeldresolutie voor visuele taalmodellen, wat tot 80% minder rekenkracht kan opleveren.

Nieuwe techniek gebruikt superklassen om AI-modellen robuuster te maken tegen misleidende patronen zonder handmatige labels.

Nieuw onderzoek toont aan dat de structuur van woordenschat crucialer is dan vrije woordvolgorde voor hoe AI-modellen talen leren.