Nieuw AI-systeem voorspelt minimaal benodigde beeldresolutie voor visuele taalmodellen, wat tot 80% minder rekenkracht kan opleveren.

Onderzoekers hebben een innovatief systeem ontwikkeld dat grote visuele taalmodellen (VLMs) veel efficiënter kan maken. Het systeem, genaamd CARES (Context-Aware Resolution Selector), kan tot 80% van de rekenkracht besparen zonder de prestaties te beïnvloeden.
Grote visuele taalmodellen zoals GPT-4V en Claude verwerken afbeeldingen vaak in hun oorspronkelijke of hoge resolutie om effectief te blijven bij verschillende taken. Dit leidt tot een groot probleem: visuele tokens maken vaak 97-99% uit van alle tokens die het model moet verwerken, wat resulteert in hoge rekenkosten en langere wachttijden.
Het ironische is dat veel taken ook prima zouden werken met lagere resoluties, maar de huidige systemen passen dit niet automatisch aan.
CARES is een lichtgewicht preprocessing-module die vooraf bepaalt welke resolutie minimaal nodig is voor een specifieke combinatie van afbeelding en vraag. Het systeem gebruikt een compact VLM van slechts 350 miljoen parameters om kenmerken te extraheren en te voorspellen wanneer een groter doelmodel zijn piekprestatie bereikt.
Het bijzondere aan CARES is dat het getraind wordt als een discrete classifier die kiest uit verschillende vooraf gedefinieerde resoluties, maar tijdens gebruik kan het continue resoluties interpoleren voor fijnmazige controle.
De onderzoekers testten CARES op vijf verschillende multimodale benchmarks, variërend van documentanalyse tot natuurlijke beelden. Het systeem werkt effectief met diverse doelmodellen en behoudt de prestaties terwijl het de rekenkracht met maximaal 80% vermindert.
Dit betekent dat organisaties die veel gebruikmaken van visuele AI-modellen aanzienlijk kunnen besparen op cloudkosten en energie, terwijl de kwaliteit van de resultaten gelijk blijft.
Wat CARES onderscheidt van andere optimalisatiemethoden is de context-bewuste aanpak. In plaats van een vaste resolutie te kiezen voor alle taken, analyseert het systeem de specifieke combinatie van afbeelding en vraag om de optimale resolutie te bepalen.
Deze aanpak is vooral waardevol omdat verschillende taken inderdaad verschillende resoluties vereisen. Tekstherkenning in documenten heeft bijvoorbeeld hoge resolutie nodig, terwijl het identificeren van grote objecten in foto's vaak kan met lagere resoluties.
De ontwikkeling van CARES komt op een cruciaal moment. Terwijl visuele taalmodellen steeds populairder worden in bedrijfsapplicaties, worden de kosten voor het uitvoeren van deze modellen een belangrijke zorg. Dit systeem biedt een praktische oplossing die direct kan worden toegepast op bestaande modellen.
Voor ontwikkelaars en bedrijven betekent dit dat ze krachtige visuele AI kunnen blijven gebruiken zonder de hoge kosten die er normaal gesproken bij komen kijken. Vooral voor organisaties die veel afbeeldingen verwerken, kan dit een game-changer zijn.
De onderzoeksresultaten zijn gepubliceerd op arXiv en tonen aan dat intelligente preprocessing een effectieve strategie is voor het optimaliseren van AI-systemen.

Nieuwe techniek gebruikt superklassen om AI-modellen robuuster te maken tegen misleidende patronen zonder handmatige labels.

Nieuw onderzoek toont aan dat de structuur van woordenschat crucialer is dan vrije woordvolgorde voor hoe AI-modellen talen leren.

Onderzoekers ontwikkelden HATL, een adaptief leerframework dat de vertaling van gebarentaal naar tekst significant verbetert door slim gebruik van voorgetrainde AI-modellen.