7 min read

Ukens notater #39: Språkmodeller vs. opphavsrett

Ukens notater #39: Språkmodeller vs. opphavsrett
Photo by Andrea De Santis / Unsplash

AI-modeller som Claude, ChatGPT og Gemini trenes på enorme mengder tekst. Tekst som er skrevet av forfattere, journalister, akademikere og andre skapere. Helt siden disse modellene ble lansert, har spørsmålet vært om de har «stjålet» denne teksten, eller om det er snakk om en ny type lesing, forståelse og læring?

I forrige uke kom en viktig avklaring i en av mange rettsstrider mellom rettighetshavere og AI-selskaper. Anthropic, selskapet bak Claude, ble frifunnet i et søksmål fra en gruppe forfattere som mente at AI-modellen deres ulovlig ble trent på opphavsrettsbeskyttede bøker. Dommeren konkluderte med at dette falt inn under «fair use» i amerikansk lovgiving som tillater visse typer bruk av opphavsrettsbeskyttet materiale uten samtykke. Begrunnelsen for denne konklusjonen var at AI-modellen ikke kopierer, men lærer.

En språkmodell er ikke en kopimaskin i den forstand at den kopierer noe 1-til-1 som en kopimaskin gjør. Den lagrer ikke hele bøker eller artikler, men bygger opp en statistisk representasjon av språk. Under trening ser modellen på enorme mengder tekst og lærer hvilke ord som typisk følger etter hverandre i ulike sammenhenger. Den teller, vekter og kalkulerer for å forutsi, men ikke for å huske eller gjennskape.

Hvis du skriver «katten satt på…» vil modellen foreslå «dørmatta», ikke fordi den har lest akkurat den setningen, men fordi den har sett tusenvis av tekster som har lignende mønstre. Katter sitter ofte på dørmatter. Dette er prediktiv statistikk, ikke minne. Derfor sammenlignes treningen ofte med hvordan mennesker lærer gjennom eksponering og ikke bare memorering. Samtidig vil nok alle være enige at menneskers læring alltid en kombinasjon av memorering, eksponering og forståelse av regler. Dette er dog ikke lett å definere.

Dommeren i saken mot Anthropic mente modellen hadde en transformativ bruk av tekstene. Det vil si at den tok ikke verket for å gi det til noen andre, men for å lage noe helt annet. En statistisk modell som kan hjelpe med alt fra tekstforståelse til programmering. Det er ikke noen sammenheng mellom bruken av teksten og bruken av språkmodellen. Modellen gir ikke tilgang til bøkene og forfatterne selger ikke noen færre bøker fordi noen har trent en språkmodell på boken. Det er åpenbare kriterier i vurdering av «fair use» i USA.

I norsk og europeisk rett finnes det ikke noe som tilsvarer den amerikanske «fair use». Den nærmeste parallellen er sitatretten i åndsverkloven §29. Sitatretten gir deg lov til å bruke utdrag av andres verk uten tillatelse. Det vil si at du kan sitere fra en bok i en anmeldelse, fra en forskningsartikkel i en oppgave eller fra en avis i en nyhetssak, men alltid med klar kildehenvisning og innenfor et tydelig formål som ikke er å gjenskape originalverket. Bruk av tekst for AI-trening faller, slik jeg forstår sitatretten, utenfor. Det betyr at det som er tillatt under fair use i USA, i mange tilfeller vil være ulovlig i Norge og EU, med mindre det finnes eksplisitt tillatelse. I EU har man åpnet for tekstanalyse til forskningsformål og i visse tilfeller for kommersiell bruk, men bare så lenge rettighetshavere ikke har reservert seg. Kulturdepartementet har fremmet forslag til endringer i åndsverkloven i Norge basert på dette EU-direktivet, men foreløpig er det ikke blitt endret. Samtidig har Danmark foreslått en lovendring som gir mennesker rettigheter til sitt eget utseende for å forhindre deepfakes. Dette er med andre ord et område i overraskende rask utvikling.

Om alt innhold skal kunne brukes fritt til AI-trening, hva skjer med insentivene til å skape nytt?

Dette er den åpenbare utfordringen og en «catch 22». Her kommer initiativer som CC Signals fra Creative Commons inn som et interessant grep. CC Signals er et nytt rammeverk som gjør det mulig å signalisere om innhold er ment for AI-trening eller ikke. Det er ikke bindende i seg selv, men kan danne grunnlag for nye tekniske og juridiske standarder. Det samme er Tollbit, en ny «bomstasjon» for AI-bottene som scraper sidene til innholdsskapere. Tollbit gir AI-scrapers en paywall hvor de må betale for å få tilgang.

Vi står nå midt mellom to verdener: En gammel verden der innhold er beskyttet, og en ny verden der maskiner lærer ved å lese alt. Hvordan skal vi prise effektivitetsforbedringer næringslivet har gjennom store språkmodeller som er trent opp på Knausgård sine samlede verker? Det er for meg ikke helt åpenbart at de to har en sammenheng, selv om de rent teknisk faktisk har det. Kanskje blir løsningen en mellomting. Et lisenssystem som gir AI-selskaper tilgang mot betaling. Eller en ordning slik Spotify løste musikkstreaming. Eller mer drastisk, en ny type opphavsrett, der man skiller mellom menneskelig og maskinell lesing.

De første dommene begynner å peke i en retning; AI-modeller kan lese og lære uten at det nødvendigvis er tyveri. Men det betyr ikke at rettighetshaverne bør tie stille.

Why the AI revolution needs tollbooths
Eighteen months ago as the AI chatbot revolution was taking hold, Olivia Joslin and Toshit Panigrahi both realized something profound was happening to the way the internet worked. AI web craw…
Key fair use ruling clarifies when books can be used for AI training
In landmark ruling, judge likens AI training to schoolchildren learning to write.
Creative Commons debuts CC signals, a framework for an open AI ecosystem | TechCrunch
CC signals will allow dataset holders to detail how their content can or cannot be reused by machines, as in the case of training AI models.
Meta wins AI copyright lawsuit as US judge rules against authors
Writers accused Facebook owner of breach over its use of books without permission to train its AI system

🤖 AI

🌎 Big Tech

🌟 Annet

📈 Interessante data