Rechtspraak
Tekst- en datamining vs auteursrecht: eerste rechtspraak
Redactie
Tekst- en datamining is het machinaal scannen van data om informatie te verkrijgen, bijvoorbeeld ter ontwikkeling van een generatief AI-model. Met de invoering van de DSM-richtlijn in 2019 is deze bezigheid nader gekwalificeerd ten opzichte van het auteursrecht. In beginsel is tekst- en datamining van beschermde werken toegestaan, mits makers geen uitdrukkelijk voorbehoud maken (opt-out) en de toegang tot die werken rechtmatig is verkregen (art. 4 DSM-richtlijn). Voor zover tekst- en datamining geschiedt voor onderzoeksdoeleinden, geldt dat makers überhaupt geen voorbehoud kunnen maken (art. 3 DSM-richtlijn).
Ondanks de duidelijke wetgeving is het nog altijd zoeken in de praktijk, met name sinds de generatieve AI-boom van 2023. Zo is er bijvoorbeeld verwarring over de toepassing van de opt-out: volstaat een publieke mededeling, en wanneer is een voorbehoud “machineleesbaar”? Hoe kan er worden gecontroleerd of generatieve AI-exploitanten zich daadwerkelijk aan de opt-out houden en hoe zit het met de werken die al vóór de wetgeving zijn gescand? Met de invoering van de AI-verordening heeft de EU-wetgever het een en ander aan vragen beantwoord en de positie van makers verder verstevigd. Exploitanten zijn nu wettelijk verplicht om op opt-outs te scannen en zich daaraan te houden. Bovendien moeten zij samenvattingen bijhouden van de datasets die zij aan hun kunstmatige algoritmes hebben gevoed. Of makers baat zullen hebben bij deze aanvullende regels, zal nog moeten blijken, onder meer uit de rechtspraktijk. In dit kader is het interessant dat een Duitse rechter zich recentelijk, als eerste binnen de EU, heeft uitgesproken over de nieuwe wetgeving met betrekking tot generatieve AI. Hierover zal nu een beknopte analyse volgen.
De LAION-zaak
De Duitse uitspraak betreft een dataset van non-profitorganisatie LAION. Deze dataset van bijna 6 miljard beelden wordt door verschillende generatieve AI-exploitanten gebruikt om hun modellen te trainen. Fotograaf Robert Kneschke vindt het onterecht dat zijn foto in de dataset is opgenomen, aangezien hij daarvoor nooit zijn toestemming heeft gegeven. Aan de hand van een aantal interessante overwegingen concludeert de Duitse rechter dat de opname van de foto in de dataset niet onrechtmatig is.
Allereerst stelt de Duitse rechter dat er geen sprake is van een tijdelijke reproductiehandeling, omdat de reproductie niet van voorbijgaande of incidentele aard is (r.o. 58). Het opnemen van de foto in de dataset valt daarentegen onder de wettelijke definitie van tekst- en datamining, aangezien LAION de reproductie in dit geval heeft verricht met het oog op het verkrijgen van informatie over “correlaties” (r.o. 73). Dit betekent dat de beperkingsbepalingen voor tekst- en datamining van toepassing zijn. In het bijzonder de onvoorwaardelijke variant voor onderzoeksorganisaties, nu LAION geen winstoogmerk heeft en het doel nastreeft om wetenschappelijk onderzoek te bevorderen. Het enkele feit dat derde partijen de database van LAION kunnen gebruiken voor de commerciële exploitatie van generatieve AI, maakt dat niet anders (r.o. 87, 114). LAION handelt dan ook niet in strijd met de wet.
Hoewel de opt-out regeling in dit geval niet van toepassing is, gaat de Duitse rechter daar wel nader op in. Fotograaf Kneschke heeft zijn opt-out in dit geval op zijn website vermeld in “natuurlijke taal”. De rechter acht het verdedigbaar dat een dergelijke opt-out als machineleesbaar kan worden aangemerkt, gelet op het feit dat hedendaagse technologieën in staat zijn om onze communicatie te interpreteren (r.o. 102). Wel moet daarbij rekening worden gehouden met de context van de zaak. In dit geval vond de reproductie plaats in 2021, toen de technologie nog minder ver gevorderd was dan nu.
Hoe nu verder
De kop is eraf: deze uitspraak is ongetwijfeld een van vele andere die nog zullen volgen. Opvallend is dat de Duitse rechter veel waarde hecht aan het maatschappelijk belang bij wetenschappelijk onderzoek en, in dat kader, de beschikbaarheid van grote datasets. Het belang van makers moet hiervoor wijken, ondanks het feit dat ook generatieve AI-exploitanten deze datasets kunnen benutten. Een vraag die gesteld kan worden is of de opt-out regeling op deze manier niet geheel omzeild kan worden in de praktijk. In plaats van direct bij de websites van makers aan te kloppen, zullen generatieve AI-exploitanten geneigd zijn om de datasets van onderzoeksorganisaties als LAION te scannen. Aangezien makers niet direct betrokken zijn bij dergelijke datasets, zullen zij dit proces niet of nauwelijks kunnen voorkomen middels de opt-out. Daarmee worden makers aangetast in hun exclusieve auteursrecht. Het is afwachten of het Europese Hof meegaat in de conclusie van de Duitse rechter, en zo ja, hoe deze problematiek wordt aangepakt.
De recent aangenomen AI-verordening zou overigens soelaas kunnen bieden, gelet op het feit dat generatieve AI-exploitanten nu verplicht worden om samenvattingen bij te houden van alle door hen gebruikte datasets (artikel 53 lid 1 sub d AI-verordening). Op basis van de samenvattingen zouden vergoedingen kunnen worden berekend die aan de desbetreffende makers kunnen worden betaald in ruil voor het tekst- en dataminingproces. Wel is hiervoor de invoering vereist van een aanvullende vergoedingsregeling, waarover meer in onze uitgebreide artikelenreeks).
AI-forum 2025/1
TikTok en X als eerste aangeklaagd voor verboden AI-praktijken
Afgelopen maand zijn de bepalingen uit de AI-verordening voor verboden AI-systemen in werking getreden. Het gaat om praktijken waarvan de Europese Commissie oordeelt dat ze zo ingrijpend zijn, dat ze niet passen in de Europese samenleving. Denk hi...
Waarom DeepSeek olie op het vuur gooit in de AI-wapenwedloop
Het is inmiddels twee jaar geleden dat OpenAI naar buiten trad met de revolutionaire ChatGPT. Het eerste krachtige AI-systeem dat vrij beschikbaar was en door eenieder breed kon worden ingezet. Sindsdien is AI het nieuwe modewoord en is het gebrui...
Aansprakelijkheid van aanbieders van generatieve AI
Generatieve AI-toepassingen kunnen illegaal tekst- en beeldmateriaal produceren en hun aanbieders kunnen dit niet altijd tegengaan. Dit doet denken aan problematiek omtrent online tussenhandeldiensten en roept de vraag op of de “safe harbour”-aans...
Gerechtvaardigd belang als grondslag voor het trainen van AI: hoe de Google Spain-zaak kan helpen
De opkomst van juridische taalmodellen (LLMs) roept belangrijke vragen op over de omgang met bijzondere en/of gevoelige persoonsgegevens. Kunnen dergelijke gegevens worden gescrapet? En zo ja, mogen ze worden gebruikt om LLMs te trainen?
Privacy-...
Machine “Unlearning”: nieuwe hoop voor mens en maker?
Er is veel over te doen geweest, met name in de creatieve industrie: het proces van machine learning en tekst- en datamining. Voordat kunstmatige algoritmes op het niveau presteren dat we van ze gewend zijn, ondergaan ze een langdurig trainingspro...
AI-gestuurde aanbevelingssystemen dehumaniseren het internet
“Dehumanization happens when people are depicted, regarded, or treated as not human or less human” - Maria Kronfeldner, filosoof. Vroeger kwam dit tot uiting in de vorm van slavernij en sociale klassen. Maar we zien nu dat het ook subtieler kan. N...
Meta riskeert strafrechtelijke aansprakelijkheid voor tekst- en datamining
Meta wordt ervan beschuldigd dat zij zonder toestemming 81 terabyte aan boeken heeft gedownload uit illegaal beschikbare bronnen zoals Z-Library en LibGen. De zaak heeft iets weg van de Google boekenzaak uit 2015, waarbij Google miljoenen boeken v...
De duistere zijde van ‘notice and takedown’ procedures en content monitoring
In de YouTube- en Cyando-uitspraak van 2021 wierp het Europese Hof licht op de rol van een platform zoals YouTube ten opzichte van de door haar gebruikers geplaatste content. Zo werd geconstateerd dat het zogenoemde safe harbor principe dat in 200...
