Ukens notater #39: Språkmodeller vs. opphavsrett
AI-modeller som Claude, ChatGPT og Gemini trenes på enorme mengder tekst. Tekst som er skrevet av forfattere, journalister, akademikere og andre skapere. Helt siden disse modellene ble lansert, har spørsmålet vært om de har «stjålet» denne teksten, eller om det er snakk om en ny type lesing, forståelse og læring?
I forrige uke kom en viktig avklaring i en av mange rettsstrider mellom rettighetshavere og AI-selskaper. Anthropic, selskapet bak Claude, ble frifunnet i et søksmål fra en gruppe forfattere som mente at AI-modellen deres ulovlig ble trent på opphavsrettsbeskyttede bøker. Dommeren konkluderte med at dette falt inn under «fair use» i amerikansk lovgiving som tillater visse typer bruk av opphavsrettsbeskyttet materiale uten samtykke. Begrunnelsen for denne konklusjonen var at AI-modellen ikke kopierer, men lærer.
En språkmodell er ikke en kopimaskin i den forstand at den kopierer noe 1-til-1 som en kopimaskin gjør. Den lagrer ikke hele bøker eller artikler, men bygger opp en statistisk representasjon av språk. Under trening ser modellen på enorme mengder tekst og lærer hvilke ord som typisk følger etter hverandre i ulike sammenhenger. Den teller, vekter og kalkulerer for å forutsi, men ikke for å huske eller gjennskape.
Hvis du skriver «katten satt på…» vil modellen foreslå «dørmatta», ikke fordi den har lest akkurat den setningen, men fordi den har sett tusenvis av tekster som har lignende mønstre. Katter sitter ofte på dørmatter. Dette er prediktiv statistikk, ikke minne. Derfor sammenlignes treningen ofte med hvordan mennesker lærer gjennom eksponering og ikke bare memorering. Samtidig vil nok alle være enige at menneskers læring alltid en kombinasjon av memorering, eksponering og forståelse av regler. Dette er dog ikke lett å definere.
Dommeren i saken mot Anthropic mente modellen hadde en transformativ bruk av tekstene. Det vil si at den tok ikke verket for å gi det til noen andre, men for å lage noe helt annet. En statistisk modell som kan hjelpe med alt fra tekstforståelse til programmering. Det er ikke noen sammenheng mellom bruken av teksten og bruken av språkmodellen. Modellen gir ikke tilgang til bøkene og forfatterne selger ikke noen færre bøker fordi noen har trent en språkmodell på boken. Det er åpenbare kriterier i vurdering av «fair use» i USA.
I norsk og europeisk rett finnes det ikke noe som tilsvarer den amerikanske «fair use». Den nærmeste parallellen er sitatretten i åndsverkloven §29. Sitatretten gir deg lov til å bruke utdrag av andres verk uten tillatelse. Det vil si at du kan sitere fra en bok i en anmeldelse, fra en forskningsartikkel i en oppgave eller fra en avis i en nyhetssak, men alltid med klar kildehenvisning og innenfor et tydelig formål som ikke er å gjenskape originalverket. Bruk av tekst for AI-trening faller, slik jeg forstår sitatretten, utenfor. Det betyr at det som er tillatt under fair use i USA, i mange tilfeller vil være ulovlig i Norge og EU, med mindre det finnes eksplisitt tillatelse. I EU har man åpnet for tekstanalyse til forskningsformål og i visse tilfeller for kommersiell bruk, men bare så lenge rettighetshavere ikke har reservert seg. Kulturdepartementet har fremmet forslag til endringer i åndsverkloven i Norge basert på dette EU-direktivet, men foreløpig er det ikke blitt endret. Samtidig har Danmark foreslått en lovendring som gir mennesker rettigheter til sitt eget utseende for å forhindre deepfakes. Dette er med andre ord et område i overraskende rask utvikling.
Om alt innhold skal kunne brukes fritt til AI-trening, hva skjer med insentivene til å skape nytt?
Dette er den åpenbare utfordringen og en «catch 22». Her kommer initiativer som CC Signals fra Creative Commons inn som et interessant grep. CC Signals er et nytt rammeverk som gjør det mulig å signalisere om innhold er ment for AI-trening eller ikke. Det er ikke bindende i seg selv, men kan danne grunnlag for nye tekniske og juridiske standarder. Det samme er Tollbit, en ny «bomstasjon» for AI-bottene som scraper sidene til innholdsskapere. Tollbit gir AI-scrapers en paywall hvor de må betale for å få tilgang.
Vi står nå midt mellom to verdener: En gammel verden der innhold er beskyttet, og en ny verden der maskiner lærer ved å lese alt. Hvordan skal vi prise effektivitetsforbedringer næringslivet har gjennom store språkmodeller som er trent opp på Knausgård sine samlede verker? Det er for meg ikke helt åpenbart at de to har en sammenheng, selv om de rent teknisk faktisk har det. Kanskje blir løsningen en mellomting. Et lisenssystem som gir AI-selskaper tilgang mot betaling. Eller en ordning slik Spotify løste musikkstreaming. Eller mer drastisk, en ny type opphavsrett, der man skiller mellom menneskelig og maskinell lesing.
De første dommene begynner å peke i en retning; AI-modeller kan lese og lære uten at det nødvendigvis er tyveri. Men det betyr ikke at rettighetshaverne bør tie stille.




🤖 AI
- Fantastisk gjennomgang av «Big Five» og AI hos Stratechery.
- Har du hørt om Nittobo? Ikke jeg heller, men dette er et japansk selskap som produserer spesielle glassfiberprodukter som er 100% nødvendig i produksjonen AI-brikker for Nvidia og andre. Etterspørselen er svært høy og Nittobo står for store deler av verdens produksjon.
- Ikke overraskende, men det ser ut som DeepSeek ikke overholder datareguleringsdirektivet i EU og overføre data til Kina uten samtykke. Tyske myndigheter vil at Apple og Google fjerner appen fra App Store. Merk at dette er DeepSeek-tjenesten, ikke modellen som du kan kjøre selv på din egen Mac eller PC.
- Google lanserer appen Doppl som enkelt lar deg «prøve» klær med AI. Du tar et bilde av hele deg og deretter kan Doppl vise deg hvordan buksen du ser i nettbutikken faktisk ser ut på. Google begynner å vise hvordan de produktifiserer AI utover chatbots.
- Mer Google: Google har lansert Gemma 3n. Den minste modellen deres så langt. Kan kjøres med så lite som 2 GB RAM og dermed lokalt på relativt vanlige mobiltelefoner.
- Ifølge WSJ har Zuckerberg og Meta en hemmelig liste over AI-folk de ønsker å ansette og tilby enorme bonuser for å bytte jobb. Det ser også ut som de lykkes med deres svært aggressive strategi og har nylig fått tak i fire forskere fra OpenAI. Hva er Apples strategi? De har nok av penger, burde de gjøre det samme?
- Deeplearning.ai har en bra gjennomgang av Apples Foundation Models.
- Er «context engineering» et bedre ord enn «prompt engineering»?
🌎 Big Tech
- Apple har satset stort på storfilmen F1: The Movie som har premiere på kinoer og AppleTV+ snarlig. Så stort at de faktisk har laget et eget spesialbygd kamera for å spille inn fartsscener rett fra F1-bilene. I tillegg har de tråkket i salaten nok en gang denne uka ved å sende ut annonser for filmen i mer eller mindre alle sine flater - inkludert Lommebok-appen. Enshitfication?
- Mer Apple: Apps på iOS er skrevet i Apples kodespråk Swift. Nå ser det ut til at Apple ønsker å gjøre Swift tilgjengelig på Android. En ny endring for Apple og åpenbart et ønske om å sørge for at Swift blir mer utbredt.
- Azeem Azhar skriver om hvor stort Googles ChatGPT problem egentlig er. Forsvinner folk fra Google til ChatGPT? Det korte svaret er ja. Early adopters bruker Google vesentlig mindre.
- Reddit fyller 20 år. CNBC har en gjennomgang av hvordan de både kjemper mot AI og selger data til språkmodeller.
🌟 Annet
- Dagens Næringsliv har en interessant sak om hvordan Norge har blitt midtpunkt i en konflikt mellom Elon Musks satellittnettverk Starlink og Irans regime. Starlink gir iranere tilgang til internett til tross for Irans forsøk på sensur og nedstengning. Iran krever at Norge stopper Starlink, men Norge avviser kravet og støtter internettfrihet.
- Hikvison, verdens største produsent av overvåkningskameraer, er blitt beordret av Canada til å avslutte all virksomhet i landet. Canada oppgir ingen annen grunn en nasjonalsikkerhet, men Hikvision er kinesiske og spørsmålet om kinesiske myndigheter potensielt kan få tilgang til kameraene er åpenbare. I Norge selges Hikvision-kameraer mange steder. The Atlantics «The Trojan horse will come for us too» tar seg noen av utfordringene med å være avhengig av teknologi fra et land man kanskje ender i krig med.
- Ukens minst overraskende nyhet, Trump sin nye telefon er visst ikke lagd i USA allikevel.
📈 Interessante data
- Temu sitt salg ned 25% i USA
- Norske Wordfeud har fortsatt 30 millioner spillere og omsatte for 79 millioner i fjor