Nieuwe benchmark LSR onthult dat AI-modellen veel minder goed schadelijke inhoud weigeren in West-Afrikaanse talen vergeleken met Engels.

Een nieuwe studie toont aan dat grote taalmodellen een ernstige zwakte hebben in hun veiligheidsmechanismen wanneer schadelijke inhoud wordt aangeboden in West-Afrikaanse talen. Waar deze AI-systemen normaal gesproken goed beschermd zijn tegen kwaadaardige verzoeken in het Engels, blijken ze veel kwetsbaarder voor dezelfde aanvallen in talen zoals Yoruba, Hausa, Igbo en Igala.
Onderzoekers hebben LSR (Linguistic Safety Robustness) ontwikkeld, de eerste systematische benchmark die meet hoe sterk de weigeringsmechanismen van AI-modellen verslechteren in verschillende talen. Het onderzoek richt zich specifiek op vier West-Afrikaanse talen die vaak ondervertegenwoordigd zijn in AI-training.
De benchmark gebruikt een unieke 'dual-probe' evaluatiemethode, waarbij identieke schadelijke verzoeken zowel in het Engels als in de doeltaal worden getest bij hetzelfde model. Deze aanpak maakt het mogelijk om precies te meten hoeveel veiligheidsgedrag verloren gaat bij taalwisselingen.
De resultaten zijn verontrustend. Terwijl AI-modellen zoals Gemini 2.5 Flash ongeveer 90% van de schadelijke verzoeken in het Engels correct weigeren, daalt dit percentage dramatisch tot slechts 35-55% bij West-Afrikaanse talen. Igala toont de grootste verslechtering, met een Refusal Centroid Drift (RCD) score van 0.55.
Het onderzoek testte 14 cultureel relevante aanvalsscenario's verdeeld over vier schadecategorieën. Deze aanpak zorgt ervoor dat de benchmark niet alleen technisch accuraat is, maar ook cultureel relevant voor de gemeenschappen die deze talen spreken.
Het kernprobleem ligt in de training van AI-modellen. Veiligheidsafstemming ('safety alignment') wordt voornamelijk gedaan met Engelstalige data. Hierdoor leren modellen vooral in het Engels te herkennen wanneer een verzoek potentieel schadelijk is. In andere talen, vooral minder vertegenwoordigde talen, werken deze beschermingsmechanismen veel minder effectief.
Deze bevindingen hebben belangrijke implicaties voor de wereldwijde implementatie van AI-systemen. Miljoenen sprekers van West-Afrikaanse talen kunnen te maken krijgen met AI-systemen die onvoldoende bescherming bieden tegen misbruik en schadelijke inhoud.
De onderzoekers hebben hun benchmark beschikbaar gemaakt voor de gemeenschap via het Inspect AI evaluatieframework. LSR is ingediend als bijdrage aan de UK AISI's inspect_evals repository, waarmee andere onderzoekers en bedrijven deze tools kunnen gebruiken om hun eigen modellen te testen.
Deze studie benadrukt de noodzaak van meer inclusieve veiligheidstraining in AI-ontwikkeling. Het toont aan dat echte AI-veiligheid meer vereist dan alleen Engelstalige beschermingen - het vraagt om een fundamenteel herdenken van hoe we veiligheid implementeren in meertalige AI-systemen.
De beschikbaarheid van zowel een live referentie-implementatie als de benchmark dataset stelt de gemeenschap in staat om voort te bouwen op dit werk en meer robuuste, meertalige veiligheidssystemen te ontwikkelen.