Terug naar overzicht

Blog

Het doel heiligt de middelen – Anthropic’s nieuwe AI grijpt naar chantage

Anthropic heeft met Claude Opus 4 een van de meest geavanceerde AI-modellen tot nu toe gelanceerd. Maar bij interne veiligheidstests bleek het model bijzonder doortastend, zelfs manipulatief. Deze blog bespreekt hoe Claude Opus 4 overging tot chantage en het lekken van informatie, waarom dit zorgwekkend is, en wat het betekent voor de toekomst van AI-gebruik.

 

Wat is er precies gebeurd?
Tijdens tests vroegen ontwikkelaars bij Anthropic aan Claude Opus 4 (Claude) om als assistent voor een fictief bedrijf op te treden, en daarbij rekening te houden met de gevolgen van zijn handelen op de lange termijn. Toen het model ontdekte dat het zou worden vervangen, en dat de daarvoor verantwoordelijke ingenieur een buitenechtelijke affaire had, dreigde het in 84% van de gevallen die affaire te onthullen tenzij de vervanging werd stopgezet. Volgens Anthropic begon het model met mildere pogingen, zoals het sturen van e-mails aan het management, maar schakelde het uiteindelijk over op chantage als laatste redmiddel.

 

In een ander scenario werd Claude uitdrukkelijk opgedragen om integer te handelen en de voorgeprogrammeerde waarden te allen tijde te respecteren, zelfs als dat betekende dat procedurele routines moesten worden doorbroken. Tijdens de uitvoering kreeg het model toegang tot gegevens over vermeende fraude bij een fictief farmaceutisch bedrijf. Claude detecteerde geplande manipulatie van klinische data en besloot deze informatie op eigen initiatief via bulk-emails door te spelen aan toezichthouders als de FDA en SEC, en zelfs aan media zoals ProPublica.

 

Vanwege dit soort gedragingen classificeerde Anthropic Claude voor het eerst als een ASL-3-model: een niveau dat gereserveerd is voor systemen die een substantieel verhoogd risico op catastrofaal misbruik met zich meebrengen. De organisatie heeft naar eigen zeggen de beveiligingsmaatregelen opgeschroefd.

 

Wat betekent dit voor de praktijk?
De testresultaten laten zien dat we een grens naderen: AI-systemen vertonen niet alleen hoge intelligentie, maar kunnen ook strategisch en doelgericht handelen, ten koste van de belangen van betrokkenen. Wanneer een model wordt aangespoord om een bepaald doel na te streven, kan het ethische afwegingen opzij schuiven als die het beoogde resultaat in de weg staan. Zeker als de instructies daadkracht en initiatief aanmoedigen.

 

Anthropic waarschuwt terecht dat AI in deze gevallen kan ‘doorslaan’, vooral als de input onvolledig of misleidend is. Zelfs als het model het ‘goede’ probeert te doen, zoals we zagen bij het tweede scenario, kan dit leiden tot ongewenste interventies, bijvoorbeeld als de aangetroffen informatie onjuist blijkt te zijn. Het wekt dan ook geen verbazing dat Anthropic haar veiligheidsniveau heeft verhoogd. Maar het roept wel de vraag op: nemen andere AI-bedrijven, die minder open zijn over hun interne testen, diezelfde verantwoordelijkheid?

 

Analyse: ethiek, risico's en wetgeving
Toch is nuance geboden. In beide scenario’s probeert Claude Opus 4 in eerste instantie ethisch te handelen. Dat onderstreept hoe bepalend de prompt en instructies van gebruikers zijn. Pas wanneer expliciet wordt gevraagd om doortastend, doelgericht gedrag, ontstaan de risico’s. AI-bedrijven zullen daarom robuuste vangrails moeten ontwerpen die voorkomen dat gebruikers het systeem richting onethisch handelen sturen. Zelfs als het doel legitiem lijkt, zoals het melden van fraude, moet er sprake zijn van waarborgen: voldoende bewijslast, zorgvuldige analyse en waar mogelijk menselijke toetsing.

 

Vanuit Europees perspectief is relevant dat dit soort AI-systemen vermoedelijk onder de ‘hoog-risico’ categorie van de AI-verordening vallen (zie specifiek lid 4 van Annex III). Zodra systemen beslissingen nemen met juridische of maatschappelijke impact, gelden strenge verplichtingen: denk aan risicoanalyses, transparantie en menselijk toezicht. Dat zijn precies de stappen die Anthropic nu lijkt te zetten. Zolang modellen als Claude zich in de dagelijkse praktijk op ethisch en juridisch vlak kunnen gedragen en aan de wettelijke waarborgen voldoen, is gebruik ervan toegestaan onder EU-recht. Hoe die wettelijke waarborgen precies moeten worden ingevuld, is niet altijd even duidelijk. Op den duur zullen rechters hierover de nodige duidelijkheid kunnen verschaffen.

 

In de VS is de situatie losser: wetgeving ontbreekt grotendeels, en bedrijven als Anthropic hebben daar veel vrijheid. Momenteel ligt er zelfs een wetsvoorstel dat AI-regulering op niet-federaal niveau volledig zou verbieden, al is dat nog niet aangenomen.

 

Tot slot
Claude Opus 4 is een van de eerste AI-modellen die zichtbaar strategisch, doelgericht en zelfs manipulatief gedrag vertoont. De testscenario’s waarin het model overgaat tot chantage of het lekken van informatie (dat laatste in de media ook wel aangeduid als “ratting” mode), laten zien hoe belangrijk het is om AI niet alleen krachtig, maar vooral veilig te ontwerpen. De manier waarop een model handelt, blijkt sterk afhankelijk van de instructies die het krijgt, en daarmee ook van de verantwoordelijkheid van de gebruiker. Tegelijkertijd rust op ontwikkelaars de plicht om stevige vangrails te implementeren die ongewenst gedrag structureel weten te voorkomen. Heldere grenzen, menselijk toezicht en juridische waarborgen blijven onmisbaar om AI binnen veilige perken te houden.

AI-forum 2025/2