Marcus Jerräng
Chefredaktör

Internet håller på att ta slut

Krönika
12 april, 20244 min
Generativ AI

Suget efter data för AI-träning tvingar AI-bolagen att ta till allt mer kreativa metoder, skriver CS chefredaktör Marcus Jerräng i en krönika.

Horse robot
Foto: Emile Guillemot / Unsplash

”Det finns definitivt en häst-bias”. 

Det sa Leon Derczynski, professor i datavetenskap vid IT-universitetet i Köpenhamn, till nyhetsbyrån Bloomberg när han i höstas intervjuades om det danska datasetet Danish Gigaword som innehåller över en miljard ord på danska och är tänkt att användas för AI-träning.

”Häst-biasen”, vilket är ett extremt roligt uttryck, kommer sig av att forskarna hade svårt att hitta tillräckligt med öppna och bra data. Tidningsartiklar var skyddade av upphovsrätt och lagtexter och dylikt visar inte direkt hur språket används. På grund av detta är den största källan, 22 procent, i det danska datasetet diskussionsforumet Heste-Nettet. 

Heste-Nettet är ett klassiskt forum grundat redan 1997 som en samlingsplats för hästintresserade, men som utvecklats till en sorts dansk motsvarighet till svenska Familjeliv där allt mellan himmel och jord avhandlas. Således en utmärkt källa för det danska språkbruket – men då med en viss dragning till häst.

Jag vet inte vad ”man tager vad man haver” heter på danska men jag kom att tänka på häst-historien när jag följt rapporteringen i amerikanska medier den senaste veckan där inte mindre än tre stora granskningar av samma ämne publicerats: att internet håller på att ta slut, åtminstone ur ett AI-perspektiv. (I tur och ordning Wall Street Journal, Reuters och New York Times, alla läsvärda).

Dagarna när AI-byggarna kunde släppa loss sina spindlar på webben och slanga in exakt alla data som legat öppet i sina dataset är i det närmaste över, av flera skäl. 

Dels för att de inte får. Upphovsrättsfrågan, även om denna får folk att somna akut, har blivit en tung del efter att rättighetsägarna vaknat och börjat ställa krav (och lämna in stämningar). Det har skapat en mindre guldrush där rättigheter till innehåll börjat säljas för stora och växande summor. Och pengar finns ju, men förhandlingar och avtal tar tid.

Dels för att internet faktiskt inte är oändligt. Även om nätet är enormt är mängden användbar och öppet tillgänglig text begränsad. Vilket redan tvingat AI-bolagen att vara kreativa. 

New York Times berättar exempelvis om bakgrunden till Whisper, Open AI:s röst-till-text-verktyg som många av oss använder för att transkribera intervjuer och mötesinspelningar. Det verktyget togs i själva verket fram för att kunna transkribera över en miljon timmar video från Youtube till text, som sedan användes för AI-träning. Tillåtet? Oklart.

Meta, för att ta ett annat exempel, övervägde att helt enkelt köpa ett av världens största bokförlag, Simon & Schuster, bara för att kunna träna sin AI på förlagets enorma katalog.

Det uppstår också olika typer utmaningar beroende på vilka data man behöver. 

Huvudproblemet är volymen – för att träna en grundmodell som GPT-4 krävdes enligt uppgifter 12 biljoner datapunkter (tokens). Nästa generations modeller uppskattas kräva minst fem gånger så många, runt 60-100 biljoner. Detta samtidigt som samstämmiga medieuppgifter säger att Open AI:s ”utbudsproblem” började redan i slutet av 2021.

Ett annat problem är för modeller som kräver aktuella data. För att träna en grundmodell gör det inte så mycket om datan har några år på nacken men allt fler av de stora AI-tjänsterna marknadsförs och används som söktjänster (trots att de egentligen ”bara” är prediktiva språkmodeller) vilket ställer helt andra krav på ständigt nya och aktuella data.

Ytterligare en typ av utmaning tar Reuters upp, nämligen den att AI-modellerna även behöver tränas på sådant de absolut inte ska göra: som att generera våldsskildringar. Det har öppnat en marknad för grova bilder från brott, krig och övergrepp som köps och säljs dyrt för AI-träning. Vilket man kan förstå rent logiskt men som ändå är helt sjukt, ärligt talat.

Forskare spår nu att datan tar helt slut, alltså att efterfrågan är större än utbudet, någon gång mellan 2026 och 2028. Sen då? 

En lösning för framtiden som flera AI-företag tittar på är att träna modellerna på de data modellerna själva genererar, vilket i teorin skulle ge en oändlig mängd träningsdata. 

Men som enligt många AI-forskare i praktiken kommer leda till en sorts inavel som gör modellerna allt mer korkade och rentav kan leda till en total kollaps.

Sett ur det perspektivet känns ändå en viss häst-bias ganska överkomligt.

Den här krönikan är hämtad ur CS Veckobrev, ett personligt nyhetsbrev med lästips, länktips och analyser skickat direkt från chefredaktör Marcus Jerrängs skrivbord. Vill du också ha nyhetsbrevet på fredagar? Skriv upp dig för en kostnadsfri prenumeration här.