Research

CARES: AI-systeem bespaart 80% rekenkracht bij visuele taalmodellen

Nieuw AI-systeem voorspelt minimaal benodigde beeldresolutie voor visuele taalmodellen, wat tot 80% minder rekenkracht kan opleveren.

4 min leestijd·ongeveer 2 maanden geleden·

CARES voorkomt onnodige rekenkracht bij AI-modellen

Onderzoekers hebben een innovatief systeem ontwikkeld dat grote visuele taalmodellen (VLMs) veel efficiënter kan maken. Het systeem, genaamd CARES (Context-Aware Resolution Selector), kan tot 80% van de rekenkracht besparen zonder de prestaties te beïnvloeden.

Het probleem met huidige VLMs

Grote visuele taalmodellen zoals GPT-4V en Claude verwerken afbeeldingen vaak in hun oorspronkelijke of hoge resolutie om effectief te blijven bij verschillende taken. Dit leidt tot een groot probleem: visuele tokens maken vaak 97-99% uit van alle tokens die het model moet verwerken, wat resulteert in hoge rekenkosten en langere wachttijden.

Het ironische is dat veel taken ook prima zouden werken met lagere resoluties, maar de huidige systemen passen dit niet automatisch aan.

Hoe CARES werkt

CARES is een lichtgewicht preprocessing-module die vooraf bepaalt welke resolutie minimaal nodig is voor een specifieke combinatie van afbeelding en vraag. Het systeem gebruikt een compact VLM van slechts 350 miljoen parameters om kenmerken te extraheren en te voorspellen wanneer een groter doelmodel zijn piekprestatie bereikt.

Bronnen

•arXiv AI: CARES: Context-Aware Resolution Selector for VLMs

CARES: AI-systeem bespaart 80% rekenkracht bij visuele taalmodellen

CARES voorkomt onnodige rekenkracht bij AI-modellen

Het probleem met huidige VLMs

Hoe CARES werkt

Bronnen

Indrukwekkende resultaten

Technische innovatie

Betekenis voor de industrie

Meer in deze rubriek

S3T-Former: Eerste volledig spike-gedreven transformer voor energiezuinige actieherkenning

Onderzoekers tonen eerste zelfverspreide wormcomputer aan voor AI-agentsystemen

TAR-FAS: AI-framework detecteert gezichtsvervalsingaan met visuele tools