Blog
Het doel heiligt de middelen – Anthropic’s nieuwe AI grijpt naar chantage
Redactie
Anthropic heeft met Claude Opus 4 een van de meest geavanceerde AI-modellen tot nu toe gelanceerd. Maar bij interne veiligheidstests bleek het model bijzonder doortastend, zelfs manipulatief. Deze blog bespreekt hoe Claude Opus 4 overging tot chantage en het lekken van informatie, waarom dit zorgwekkend is, en wat het betekent voor de toekomst van AI-gebruik.
Wat is er precies gebeurd?
Tijdens tests vroegen ontwikkelaars bij Anthropic aan Claude Opus 4 (Claude) om als assistent voor een fictief bedrijf op te treden, en daarbij rekening te houden met de gevolgen van zijn handelen op de lange termijn. Toen het model ontdekte dat het zou worden vervangen, en dat de daarvoor verantwoordelijke ingenieur een buitenechtelijke affaire had, dreigde het in 84% van de gevallen die affaire te onthullen tenzij de vervanging werd stopgezet. Volgens Anthropic begon het model met mildere pogingen, zoals het sturen van e-mails aan het management, maar schakelde het uiteindelijk over op chantage als laatste redmiddel.
In een ander scenario werd Claude uitdrukkelijk opgedragen om integer te handelen en de voorgeprogrammeerde waarden te allen tijde te respecteren, zelfs als dat betekende dat procedurele routines moesten worden doorbroken. Tijdens de uitvoering kreeg het model toegang tot gegevens over vermeende fraude bij een fictief farmaceutisch bedrijf. Claude detecteerde geplande manipulatie van klinische data en besloot deze informatie op eigen initiatief via bulk-emails door te spelen aan toezichthouders als de FDA en SEC, en zelfs aan media zoals ProPublica.
Vanwege dit soort gedragingen classificeerde Anthropic Claude voor het eerst als een ASL-3-model: een niveau dat gereserveerd is voor systemen die een substantieel verhoogd risico op catastrofaal misbruik met zich meebrengen. De organisatie heeft naar eigen zeggen de beveiligingsmaatregelen opgeschroefd.
Wat betekent dit voor de praktijk?
De testresultaten laten zien dat we een grens naderen: AI-systemen vertonen niet alleen hoge intelligentie, maar kunnen ook strategisch en doelgericht handelen, ten koste van de belangen van betrokkenen. Wanneer een model wordt aangespoord om een bepaald doel na te streven, kan het ethische afwegingen opzij schuiven als die het beoogde resultaat in de weg staan. Zeker als de instructies daadkracht en initiatief aanmoedigen.
Anthropic waarschuwt terecht dat AI in deze gevallen kan ‘doorslaan’, vooral als de input onvolledig of misleidend is. Zelfs als het model het ‘goede’ probeert te doen, zoals we zagen bij het tweede scenario, kan dit leiden tot ongewenste interventies, bijvoorbeeld als de aangetroffen informatie onjuist blijkt te zijn. Het wekt dan ook geen verbazing dat Anthropic haar veiligheidsniveau heeft verhoogd. Maar het roept wel de vraag op: nemen andere AI-bedrijven, die minder open zijn over hun interne testen, diezelfde verantwoordelijkheid?
Analyse: ethiek, risico's en wetgeving
Toch is nuance geboden. In beide scenario’s probeert Claude Opus 4 in eerste instantie ethisch te handelen. Dat onderstreept hoe bepalend de prompt en instructies van gebruikers zijn. Pas wanneer expliciet wordt gevraagd om doortastend, doelgericht gedrag, ontstaan de risico’s. AI-bedrijven zullen daarom robuuste vangrails moeten ontwerpen die voorkomen dat gebruikers het systeem richting onethisch handelen sturen. Zelfs als het doel legitiem lijkt, zoals het melden van fraude, moet er sprake zijn van waarborgen: voldoende bewijslast, zorgvuldige analyse en waar mogelijk menselijke toetsing.
Vanuit Europees perspectief is relevant dat dit soort AI-systemen vermoedelijk onder de ‘hoog-risico’ categorie van de AI-verordening vallen (zie specifiek lid 4 van Annex III). Zodra systemen beslissingen nemen met juridische of maatschappelijke impact, gelden strenge verplichtingen: denk aan risicoanalyses, transparantie en menselijk toezicht. Dat zijn precies de stappen die Anthropic nu lijkt te zetten. Zolang modellen als Claude zich in de dagelijkse praktijk op ethisch en juridisch vlak kunnen gedragen en aan de wettelijke waarborgen voldoen, is gebruik ervan toegestaan onder EU-recht. Hoe die wettelijke waarborgen precies moeten worden ingevuld, is niet altijd even duidelijk. Op den duur zullen rechters hierover de nodige duidelijkheid kunnen verschaffen.
In de VS is de situatie losser: wetgeving ontbreekt grotendeels, en bedrijven als Anthropic hebben daar veel vrijheid. Momenteel ligt er zelfs een wetsvoorstel dat AI-regulering op niet-federaal niveau volledig zou verbieden, al is dat nog niet aangenomen.
Tot slot
Claude Opus 4 is een van de eerste AI-modellen die zichtbaar strategisch, doelgericht en zelfs manipulatief gedrag vertoont. De testscenario’s waarin het model overgaat tot chantage of het lekken van informatie (dat laatste in de media ook wel aangeduid als “ratting” mode), laten zien hoe belangrijk het is om AI niet alleen krachtig, maar vooral veilig te ontwerpen. De manier waarop een model handelt, blijkt sterk afhankelijk van de instructies die het krijgt, en daarmee ook van de verantwoordelijkheid van de gebruiker. Tegelijkertijd rust op ontwikkelaars de plicht om stevige vangrails te implementeren die ongewenst gedrag structureel weten te voorkomen. Heldere grenzen, menselijk toezicht en juridische waarborgen blijven onmisbaar om AI binnen veilige perken te houden.
AI-forum 2025/2
GPT-4o en het Ghibli Effect: de genadeslag voor ontwerpers en rechthebbenden?
Afgelopen week stond social media vol met afbeeldingen in de kenmerkende stijl van de Japanse animatiestudio Ghibli. Dit was het gevolg van de release van OpenAI's nieuwe afbeeldingsgenerator, die onderdeel uitmaakt van de reeds bestaande chatbot ...
Anthropic mag de ontwikkeling van Claude AI doorzetten, ondanks zorgen auteursrecht
Van de 39 Amerikaanse auteursrechtzaken op het gebied van AI-ontwikkeling, zijn er twee gericht tegen ontwikkelaar Anthropic. Anthropic is het bedrijf achter Claude AI, een chatbot van vergelijkbare aard en kwaliteit als ChatGPT. Claude is deels g...
AI Verordening: Hoe verzeker je AI-geletterdheid binnen je organisatie?
Sinds 2 februari 2025 zijn aanbieders en gebruiksverantwoordelijken van AI-systemen verplicht om voldoende AI-geletterdheid te verzekeren van hun personeel en andere personen die namens hen AI-systemen gebruiken. Als onderdeel van de eerste ree...
Creatieve sector verontwaardigd over nieuwe Gedragscode AI-verordening
Het Europese AI-bureau heeft recent de derde en laatste conceptversie gepubliceerd van de Gedragscode voor aanbieders van generatieve AI, als aanvulling op de AI-verordening. Makers, uitvoerende kunstenaars en rechthebbenden reageren hierop veront...
Britse denktank wil commerciële AI-training in Engeland legaliseren
2 maanden terug bespraken we hoe de Britse overheid een auteursrechtelijke hervorming overweegt op basis waarvan bedrijven voor commerciële doeleinden mogen tekst- en dataminen, tenzij rechthebbenden zich daar uitdrukkelijk tegen verzetten. Oftewe...
Generatieve AI als voertuig voor de meningsuiting en creatieve expressie
De discussie over generatieve AI in de kunstwereld wordt vaak gedomineerd door zorgen. Makers en rechthebbenden vrezen dat hun werken worden nagebootst, dat creatieve beroepen onder druk komen te staan en dat bestaande rechten worden ondermijnd. M...
Hoe GPT-NL en Nextcloud de afhankelijkheid van Big Tech helpen terugdringen
In een wereld waarin taalmodellen als ChatGPT razendsnel terrein winnen, groeit ook het besef van afhankelijkheid. De meeste krachtige AI-systemen worden gebouwd en beheerd door een handvol grote Amerikaanse technologiebedrijven, die beperkte tran...
AI-training is geen fair use, concludeert een groep Amerikaanse hoogleraren
Een groep toonaangevende Amerikaanse hoogleraren auteursrecht heeft zich uitgesproken tegen Meta’s beroep op fair use voor het trainen van generatieve AI-modellen. In een stevig beargumenteerde amicus brief stellen de experts dat het gebruik van a...
Adobe's Content Credentials: het equilibrium tussen auteursrecht en innovatie?
De inzet op transparantie in het tijdperk van generatieve AI krijgt een krachtige impuls met Adobe’s recente introductie van Content Credentials. Door dit nieuwe systeem kunnen makers hun naam, de herkomst van werken en hun voorkeuren over AI-gebr...
2024 EU AI-verordening: een gedetailleerde analyse
De AI-verordening is een belangrijk regelgevingskader dat gericht is op het harmoniseren van de ontwikkeling, de toepassing en het gebruik van AI binnen de EU. Deze uitgebreide regelgeving, die op 1 augustus 2024 van kracht is geworden, is bedoeld...
OpenAI wijzigt koers: non-profit behoudt controle
OpenAI heeft aangekondigd de plannen voor de overgang naar een winstgericht bedrijfsmodel deels terug te draaien. Het bedrijf is van plan zijn for-profit tak om te zetten in een public benefit corporation (PBC), maar de volledige zeggenschap blijf...
AI in oorlogsvoering: strategische innovaties en juridische uitdagingen
Kunstmatige intelligentie (AI) speelt een steeds grotere rol in moderne oorlogsvoering. Wat begon als een ondersteunend hulpmiddel in beeldherkenning en dataverwerking, ontwikkelt zich razendsnel tot een beslissende factor in zowel militaire op...
US Copyright Office over AI-training, auteursrecht en fair use (uitgebreide analyse)
Begin mei publiceerde het Amerikaanse Copyright Office (UCO) het derde en laatste rapport in haar reeks over AI en auteursrecht. Het rapport werpt een diepgravende blik op de juridische status van AI-training onder het Amerikaanse auteursrecht, me...
Aansprakelijkheid in het AI-tijdperk: is de kwalitatieve aansprakelijkheid voor gebrekkige roerende zaken toe aan een update?
§ 1. Inleiding
Artificial intelligence (hierna: ‘AI’) speelt een steeds grotere rol in onze samenleving. Zo is AI bezig met een flinke opmars in onder andere de financiële sector, in bestuursrechtelijke besluitvormingsprocessen en bij de opkomst ...
Amerikaans wetsvoorstel verbiedt niet-federale AI-wetgeving voor 10 jaar
In het Huis van Afgevaardigden (de Amerikaanse tegenhanger van de Tweede Kamer) is een wetsvoorstel ingediend dat staten en andere niet-federale overheden de komende tien jaar verbiedt om eigen regels op te stellen voor kunstmatige intelligentie. ...
AI-training en auteursrecht: de internationale verschillen
Mag je auteursrechtelijk beschermd werk gebruiken om AI-modellen te trainen? Die vraag houdt wetgevers wereldwijd bezig. Als onderdeel van haar recente rapport, heeft het Amerikaanse Copyright Office in kaart gebracht hoe verschillende landen AI-t...
Het doel heiligt de middelen – Anthropic’s nieuwe AI grijpt naar chantage
Anthropic heeft met Claude Opus 4 een van de meest geavanceerde AI-modellen tot nu toe gelanceerd. Maar bij interne veiligheidstests bleek het model bijzonder doortastend, zelfs manipulatief. Deze blog bespreekt hoe Claude Opus 4 overging tot chan...
Japan introduceert AI-wetgeving die sterk afwijkt van onze AI-verordening
Op 28 mei 2025 nam het Japanse parlement voor het eerst een nationale AI-wet aan. Deze nieuwe wet, beter bekend als de AI Utilization Promotion Act, kiest nadrukkelijk voor een andere koers dan de Europese Unie. Waar de EU inzet op risicobeperking...
Van handmatige moderatie naar AI-gestuurde detectiesystemen
Inleiding
In hoeverre moet generatieve stijlnabootsing worden afgeremd met “guardrails”?
De opkomst van generatieve AI heeft een breed spectrum aan creatieve toepassingen mogelijk gemaakt. Of het nu gaat om tekst, beeld, video of muziek: de modellen worden steeds krachtiger. Tegelijkertijd staat de juridische toetsing aan bijvoorbeeld...
Derde rechtszaak tegen Anthropic: kun je tekst- en datamining contractueel verbieden?
Reddit heeft een rechtszaak aangespannen tegen AI-ontwikkelaar Anthropic. De aanklacht draait om het vermeende herhaaldelijk scrapen van Reddit-data door Anthropic, ondanks eerdere toezeggingen om daarmee te stoppen. Daarmee voegt deze zaak zich i...
Disney en Universal trekken ten strijde tegen AI-bedrijf Midjourney
Disney en Universal hebben een rechtszaak aangespannen tegen het AI-bedrijf Midjourney. Volgens de twee Hollywood-giganten heeft Midjourney op grote schaal auteursrechtelijk beschermd beeldmateriaal gebruikt bij het trainen van zijn AI-modellen, z...
Meta’s AI-app leidt tot onbedoelde publicatie van privégesprekken
De nieuwe standalone AI-app van Meta heeft veel stof doen opwaaien. Gebruikers van de app deelden onbedoeld persoonlijke gesprekken met de chatbot op een openbare feed. De situatie heeft vragen opgeroepen over Meta’s interface en de bescherming va...
AI-muziekplatforms in overleg met major labels: wat zijn de mogelijke gevolgen?
Recent werd bevestigd dat de grote platenmaatschappijen (Universal Music Group, Warner Music Group en Sony Music Entertainment) in gesprek zijn met de bekende AI-muziekplatforms Suno en Udio. Volgens diverse bronnen onderhandelen deze partijen ...
AI in kinderspeelgoed: Mattel en OpenAI kondigen nieuwe samenwerking aan
Mattel en OpenAI hebben een strategische samenwerking aangekondigd om AI te integreren in speelgoed voor kinderen. Het nieuws roept belangrijke juridische en maatschappelijke vragen op. In dit artikel bespreken we de aankondiging, de eerste reacti...