Onderzoekers ontwikkelen Hard Preference Sampling om AI-modellen beter af te stemmen op menselijke waarden en schadelijke content te verminderen.

Onderzoekers hebben een nieuwe methode ontwikkeld om grote taalmodellen (LLM's) beter af te stemmen op menselijke voorkeuren en waarden. De techniek, genaamd Hard Preference Sampling (HPS), belooft AI-systemen veiliger en beter controleerbaar te maken door schadelijke content effectiever te weren.
Het afstemmen van AI-modellen op menselijke voorkeuren is cruciaal voor de ontwikkeling van veilige AI-systemen. Bestaande methoden, gebaseerd op Plackett-Luce (PL) en Bradley-Terry (BT) modellen, kampen echter met verschillende uitdagingen:
HPS introduceert een geheel nieuwe benadering voor het trainen van AI-modellen. De methode:
Een belangrijk kenmerk van HPS is de single-sample Monte Carlo sampling strategie. Deze aanpak:
De onderzoekers tonen aan dat HPS verschillende theoretische voordelen biedt:
De effectiviteit van HPS werd getest op twee belangrijke datasets:
De resultaten tonen aan dat HPS:
Deze doorbraak heeft belangrijke gevolgen voor de AI-industrie. Door AI-modellen beter af te stemmen op menselijke waarden, kunnen ontwikkelaars:
Hard Preference Sampling vertegenwoordigt een belangrijke stap voorwaarts in het ontwikkelen van verantwoorde AI. De methode biedt een praktische oplossing voor een van de grootste uitdagingen in moderne AI-ontwikkeling: het waarborgen dat AI-systemen handelen in overeenstemming met menselijke waarden en verwachtingen.
Door de combinatie van theoretische soliditeit en praktische efficiëntie positioneert HPS zich als een veelbelovende techniek voor de toekomst van AI-veiligheid.

Onderzoekers ontwikkelen S3T-Former, een energiezuinige spiking neural network voor skelet-gebaseerde actieherkenning die de problemen van traditionele AI-modellen oplost.

ClawWorm is de eerste zelfkopiërende malware voor AI-agenten, met een infectiekans van 64,5% via één enkel bericht.

Onderzoekers ontwikkelen geavanceerd AI-systeem dat externe visuele tools gebruikt om gezichtsvervalsingsbeter te detecteren via stap-voor-stap redenering.