Blog
Het doel heiligt de middelen – Anthropic’s nieuwe AI grijpt naar chantage
Redactie
Anthropic heeft met Claude Opus 4 een van de meest geavanceerde AI-modellen tot nu toe gelanceerd. Maar bij interne veiligheidstests bleek het model bijzonder doortastend, zelfs manipulatief. Deze blog bespreekt hoe Claude Opus 4 overging tot chantage en het lekken van informatie, waarom dit zorgwekkend is, en wat het betekent voor de toekomst van AI-gebruik.
Wat is er precies gebeurd?
Tijdens tests vroegen ontwikkelaars bij Anthropic aan Claude Opus 4 (Claude) om als assistent voor een fictief bedrijf op te treden, en daarbij rekening te houden met de gevolgen van zijn handelen op de lange termijn. Toen het model ontdekte dat het zou worden vervangen, en dat de daarvoor verantwoordelijke ingenieur een buitenechtelijke affaire had, dreigde het in 84% van de gevallen die affaire te onthullen tenzij de vervanging werd stopgezet. Volgens Anthropic begon het model met mildere pogingen, zoals het sturen van e-mails aan het management, maar schakelde het uiteindelijk over op chantage als laatste redmiddel.
In een ander scenario werd Claude uitdrukkelijk opgedragen om integer te handelen en de voorgeprogrammeerde waarden te allen tijde te respecteren, zelfs als dat betekende dat procedurele routines moesten worden doorbroken. Tijdens de uitvoering kreeg het model toegang tot gegevens over vermeende fraude bij een fictief farmaceutisch bedrijf. Claude detecteerde geplande manipulatie van klinische data en besloot deze informatie op eigen initiatief via bulk-emails door te spelen aan toezichthouders als de FDA en SEC, en zelfs aan media zoals ProPublica.
Vanwege dit soort gedragingen classificeerde Anthropic Claude voor het eerst als een ASL-3-model: een niveau dat gereserveerd is voor systemen die een substantieel verhoogd risico op catastrofaal misbruik met zich meebrengen. De organisatie heeft naar eigen zeggen de beveiligingsmaatregelen opgeschroefd.
Wat betekent dit voor de praktijk?
De testresultaten laten zien dat we een grens naderen: AI-systemen vertonen niet alleen hoge intelligentie, maar kunnen ook strategisch en doelgericht handelen, ten koste van de belangen van betrokkenen. Wanneer een model wordt aangespoord om een bepaald doel na te streven, kan het ethische afwegingen opzij schuiven als die het beoogde resultaat in de weg staan. Zeker als de instructies daadkracht en initiatief aanmoedigen.
Anthropic waarschuwt terecht dat AI in deze gevallen kan ‘doorslaan’, vooral als de input onvolledig of misleidend is. Zelfs als het model het ‘goede’ probeert te doen, zoals we zagen bij het tweede scenario, kan dit leiden tot ongewenste interventies, bijvoorbeeld als de aangetroffen informatie onjuist blijkt te zijn. Het wekt dan ook geen verbazing dat Anthropic haar veiligheidsniveau heeft verhoogd. Maar het roept wel de vraag op: nemen andere AI-bedrijven, die minder open zijn over hun interne testen, diezelfde verantwoordelijkheid?
Analyse: ethiek, risico's en wetgeving
Toch is nuance geboden. In beide scenario’s probeert Claude Opus 4 in eerste instantie ethisch te handelen. Dat onderstreept hoe bepalend de prompt en instructies van gebruikers zijn. Pas wanneer expliciet wordt gevraagd om doortastend, doelgericht gedrag, ontstaan de risico’s. AI-bedrijven zullen daarom robuuste vangrails moeten ontwerpen die voorkomen dat gebruikers het systeem richting onethisch handelen sturen. Zelfs als het doel legitiem lijkt, zoals het melden van fraude, moet er sprake zijn van waarborgen: voldoende bewijslast, zorgvuldige analyse en waar mogelijk menselijke toetsing.
Vanuit Europees perspectief is relevant dat dit soort AI-systemen vermoedelijk onder de ‘hoog-risico’ categorie van de AI-verordening vallen (zie specifiek lid 4 van Annex III). Zodra systemen beslissingen nemen met juridische of maatschappelijke impact, gelden strenge verplichtingen: denk aan risicoanalyses, transparantie en menselijk toezicht. Dat zijn precies de stappen die Anthropic nu lijkt te zetten. Zolang modellen als Claude zich in de dagelijkse praktijk op ethisch en juridisch vlak kunnen gedragen en aan de wettelijke waarborgen voldoen, is gebruik ervan toegestaan onder EU-recht. Hoe die wettelijke waarborgen precies moeten worden ingevuld, is niet altijd even duidelijk. Op den duur zullen rechters hierover de nodige duidelijkheid kunnen verschaffen.
In de VS is de situatie losser: wetgeving ontbreekt grotendeels, en bedrijven als Anthropic hebben daar veel vrijheid. Momenteel ligt er zelfs een wetsvoorstel dat AI-regulering op niet-federaal niveau volledig zou verbieden, al is dat nog niet aangenomen.
Tot slot
Claude Opus 4 is een van de eerste AI-modellen die zichtbaar strategisch, doelgericht en zelfs manipulatief gedrag vertoont. De testscenario’s waarin het model overgaat tot chantage of het lekken van informatie (dat laatste in de media ook wel aangeduid als “ratting” mode), laten zien hoe belangrijk het is om AI niet alleen krachtig, maar vooral veilig te ontwerpen. De manier waarop een model handelt, blijkt sterk afhankelijk van de instructies die het krijgt, en daarmee ook van de verantwoordelijkheid van de gebruiker. Tegelijkertijd rust op ontwikkelaars de plicht om stevige vangrails te implementeren die ongewenst gedrag structureel weten te voorkomen. Heldere grenzen, menselijk toezicht en juridische waarborgen blijven onmisbaar om AI binnen veilige perken te houden.
AI-forum 2025/2
AI-training is geen fair use, concludeert een groep Amerikaanse hoogleraren
Een groep toonaangevende Amerikaanse hoogleraren auteursrecht heeft zich uitgesproken tegen Meta’s beroep op fair use voor het trainen van generatieve AI-modellen. In een stevig beargumenteerde amicus brief stellen de experts dat het gebruik van a...
Otter.ai aangeklaagd om AI-tool die automatisch Zoom-, Meet- en Teams-meetings opneemt
De opmars van AI-notetakers en slimme brillen laat zien hoe snel kunstmatige intelligentie zich in het dagelijks leven nestelt. Wat begon als een handig hulpmiddel om vergaderingen samen te vatten, is inmiddels uitgegroeid tot een markt waarin app...
Eerste rechtspraak over AI-hallucinaties; OpenAI niet aansprakelijk
In mei 2023 spande de Amerikaanse radiopresentator Mark Walters een rechtszaak aan tegen OpenAI. Aanleiding was een foutief antwoord van ChatGPT, waarin Walters onterecht werd beschuldigd van verduistering. De rechter oordeelde afgelopen week dat ...
2024 EU AI-verordening: een gedetailleerde analyse
De AI-verordening is een belangrijk regelgevingskader dat gericht is op het harmoniseren van de ontwikkeling, de toepassing en het gebruik van AI binnen de EU. Deze uitgebreide regelgeving, die op 1 augustus 2024 van kracht is geworden, is bedoeld...
Adobe's Content Credentials: het equilibrium tussen auteursrecht en innovatie?
De inzet op transparantie in het tijdperk van generatieve AI krijgt een krachtige impuls met Adobe’s recente introductie van Content Credentials. Door dit nieuwe systeem kunnen makers hun naam, de herkomst van werken en hun voorkeuren over AI-gebr...
Generatieve AI en auteursrecht: Europese koerswijziging op komst? Het parlementaire rapport in een notendop
De explosieve opkomst van generatieve AI heeft veel vragen opgeroepen binnen het auteursrecht. Terwijl ontwikkelaars van grote taal- en beeldmodellen hun systemen trainen op miljoenen beschermde werken, worstelen rechthebbenden met onduidelijke re...
OpenAI wijzigt koers: non-profit behoudt controle
OpenAI heeft aangekondigd de plannen voor de overgang naar een winstgericht bedrijfsmodel deels terug te draaien. Het bedrijf is van plan zijn for-profit tak om te zetten in een public benefit corporation (PBC), maar de volledige zeggenschap blijf...
