Blog
Het doel heiligt de middelen – Anthropic’s nieuwe AI grijpt naar chantage
Redactie
Anthropic heeft met Claude Opus 4 een van de meest geavanceerde AI-modellen tot nu toe gelanceerd. Maar bij interne veiligheidstests bleek het model bijzonder doortastend, zelfs manipulatief. Deze blog bespreekt hoe Claude Opus 4 overging tot chantage en het lekken van informatie, waarom dit zorgwekkend is, en wat het betekent voor de toekomst van AI-gebruik.
Wat is er precies gebeurd?
Tijdens tests vroegen ontwikkelaars bij Anthropic aan Claude Opus 4 (Claude) om als assistent voor een fictief bedrijf op te treden, en daarbij rekening te houden met de gevolgen van zijn handelen op de lange termijn. Toen het model ontdekte dat het zou worden vervangen, en dat de daarvoor verantwoordelijke ingenieur een buitenechtelijke affaire had, dreigde het in 84% van de gevallen die affaire te onthullen tenzij de vervanging werd stopgezet. Volgens Anthropic begon het model met mildere pogingen, zoals het sturen van e-mails aan het management, maar schakelde het uiteindelijk over op chantage als laatste redmiddel.
In een ander scenario werd Claude uitdrukkelijk opgedragen om integer te handelen en de voorgeprogrammeerde waarden te allen tijde te respecteren, zelfs als dat betekende dat procedurele routines moesten worden doorbroken. Tijdens de uitvoering kreeg het model toegang tot gegevens over vermeende fraude bij een fictief farmaceutisch bedrijf. Claude detecteerde geplande manipulatie van klinische data en besloot deze informatie op eigen initiatief via bulk-emails door te spelen aan toezichthouders als de FDA en SEC, en zelfs aan media zoals ProPublica.
Vanwege dit soort gedragingen classificeerde Anthropic Claude voor het eerst als een ASL-3-model: een niveau dat gereserveerd is voor systemen die een substantieel verhoogd risico op catastrofaal misbruik met zich meebrengen. De organisatie heeft naar eigen zeggen de beveiligingsmaatregelen opgeschroefd.
Wat betekent dit voor de praktijk?
De testresultaten laten zien dat we een grens naderen: AI-systemen vertonen niet alleen hoge intelligentie, maar kunnen ook strategisch en doelgericht handelen, ten koste van de belangen van betrokkenen. Wanneer een model wordt aangespoord om een bepaald doel na te streven, kan het ethische afwegingen opzij schuiven als die het beoogde resultaat in de weg staan. Zeker als de instructies daadkracht en initiatief aanmoedigen.
Anthropic waarschuwt terecht dat AI in deze gevallen kan ‘doorslaan’, vooral als de input onvolledig of misleidend is. Zelfs als het model het ‘goede’ probeert te doen, zoals we zagen bij het tweede scenario, kan dit leiden tot ongewenste interventies, bijvoorbeeld als de aangetroffen informatie onjuist blijkt te zijn. Het wekt dan ook geen verbazing dat Anthropic haar veiligheidsniveau heeft verhoogd. Maar het roept wel de vraag op: nemen andere AI-bedrijven, die minder open zijn over hun interne testen, diezelfde verantwoordelijkheid?
Analyse: ethiek, risico's en wetgeving
Toch is nuance geboden. In beide scenario’s probeert Claude Opus 4 in eerste instantie ethisch te handelen. Dat onderstreept hoe bepalend de prompt en instructies van gebruikers zijn. Pas wanneer expliciet wordt gevraagd om doortastend, doelgericht gedrag, ontstaan de risico’s. AI-bedrijven zullen daarom robuuste vangrails moeten ontwerpen die voorkomen dat gebruikers het systeem richting onethisch handelen sturen. Zelfs als het doel legitiem lijkt, zoals het melden van fraude, moet er sprake zijn van waarborgen: voldoende bewijslast, zorgvuldige analyse en waar mogelijk menselijke toetsing.
Vanuit Europees perspectief is relevant dat dit soort AI-systemen vermoedelijk onder de ‘hoog-risico’ categorie van de AI-verordening vallen (zie specifiek lid 4 van Annex III). Zodra systemen beslissingen nemen met juridische of maatschappelijke impact, gelden strenge verplichtingen: denk aan risicoanalyses, transparantie en menselijk toezicht. Dat zijn precies de stappen die Anthropic nu lijkt te zetten. Zolang modellen als Claude zich in de dagelijkse praktijk op ethisch en juridisch vlak kunnen gedragen en aan de wettelijke waarborgen voldoen, is gebruik ervan toegestaan onder EU-recht. Hoe die wettelijke waarborgen precies moeten worden ingevuld, is niet altijd even duidelijk. Op den duur zullen rechters hierover de nodige duidelijkheid kunnen verschaffen.
In de VS is de situatie losser: wetgeving ontbreekt grotendeels, en bedrijven als Anthropic hebben daar veel vrijheid. Momenteel ligt er zelfs een wetsvoorstel dat AI-regulering op niet-federaal niveau volledig zou verbieden, al is dat nog niet aangenomen.
Tot slot
Claude Opus 4 is een van de eerste AI-modellen die zichtbaar strategisch, doelgericht en zelfs manipulatief gedrag vertoont. De testscenario’s waarin het model overgaat tot chantage of het lekken van informatie (dat laatste in de media ook wel aangeduid als “ratting” mode), laten zien hoe belangrijk het is om AI niet alleen krachtig, maar vooral veilig te ontwerpen. De manier waarop een model handelt, blijkt sterk afhankelijk van de instructies die het krijgt, en daarmee ook van de verantwoordelijkheid van de gebruiker. Tegelijkertijd rust op ontwikkelaars de plicht om stevige vangrails te implementeren die ongewenst gedrag structureel weten te voorkomen. Heldere grenzen, menselijk toezicht en juridische waarborgen blijven onmisbaar om AI binnen veilige perken te houden.
AI-forum 2025/2
OpenAI wijzigt koers: non-profit behoudt controle
OpenAI heeft aangekondigd de plannen voor de overgang naar een winstgericht bedrijfsmodel deels terug te draaien. Het bedrijf is van plan zijn for-profit tak om te zetten in een public benefit corporation (PBC), maar de volledige zeggenschap blijf...
Van handmatige moderatie naar AI-gestuurde detectiesystemen
Inleiding
Google’s AI-summaries: innovatie of roofbouw? De laatste juridische ontwikkelingen
De introductie van AI-gegenereerde samenvattingen bovenaan zoekresultaten markeert een belangrijke verschuiving in hoe online informatie wordt geconsumeerd. Waar Google’s AI Overviews miljoenen gebruikers helpt om sneller antwoorden te vinden, roe...
Tegenstrijdige visies op AI-training en fair use: hoe de rechter afwijkt van het US Copyright Office
Maandag 23 juni 2025 werd een mijlpaal bereikt in het Amerikaanse auteursrecht: in de zaak Bartz v. Anthropic oordeelde de federale rechter William Alsup voor het eerst dat het gebruik van auteursrechtelijk beschermd materiaal voor AI-training ond...
Meta’s AI-app leidt tot onbedoelde publicatie van privégesprekken
De nieuwe standalone AI-app van Meta heeft veel stof doen opwaaien. Gebruikers van de app deelden onbedoeld persoonlijke gesprekken met de chatbot op een openbare feed. De situatie heeft vragen opgeroepen over Meta’s interface en de bescherming va...
AI caramba! Dansen met de nieuwe werkelijkheid: over kwaliteitsverlies, bewustzijnsgebrek en paniek in het onderwijs
In februari 2019 werd vanwege zorgen over grootschalig nepnieuws en andere vormen van misbruik GPT-2 niet door OpenAI op de markt gebracht:[1]
“Due to concerns about large language models being used to generate deceptive, biased, or abusive langu...
The Dutch and Danish proposals for legislation on deepfakes
This article contains a summary and a brief comparison of the Dutch and Danish proposals for legislation relating to deepfakes.
The Dutch proposal is an initiative of member of parliament ms. Rosemarijn Dral, based on an article published in O...
2024 EU AI-verordening: een gedetailleerde analyse
De AI-verordening is een belangrijk regelgevingskader dat gericht is op het harmoniseren van de ontwikkeling, de toepassing en het gebruik van AI binnen de EU. Deze uitgebreide regelgeving, die op 1 augustus 2024 van kracht is geworden, is bedoeld...
AI-training en auteursrecht: de internationale verschillen
Mag je auteursrechtelijk beschermd werk gebruiken om AI-modellen te trainen? Die vraag houdt wetgevers wereldwijd bezig. Als onderdeel van haar recente rapport, heeft het Amerikaanse Copyright Office in kaart gebracht hoe verschillende landen AI-t...