IT

Reddit "prodao" svoj sadržaj, u sve umiješana AI

Pišite, komentirajte, postavljajte fotografije – sve će se to jednog dana unovčiti. Doduše, ne vi, kreatori, vi nećete dobiti nikakve pare, već oni pod čijim ste prihvaćenim uvjetima objavili i otuđili svoj sadržaj.

FOTO: ILUSTRACIJA/INTERNETMATTERS.ORG
FOTO: ILUSTRACIJA/INTERNETMATTERS.ORG
Ilustracija

Sve što je odvajkada upisano u razne forume, siteove, društvene mreže, platforme, pravo je bogatstvo koje je za prodaju. Otkako se pojavili razni chatGPT-ovi i LLM-ovi, kao gladni vukovi navalili su na podatke razasute na webu. Dok im nisu zaprijetili tužbama, oni su se potiho i tajno hranili. LLM modeli su trenirani na golemoj količini podataka koji su došli iz knjiga, članaka, web stranica i drugih izvora tekstova, pokupljenih dubokim oranjem na webu, piše Bug.hr.

Zatim se sve riječi, imenice, glagoli, veznici, tokeniziraju, proces koji razbije tekst u manje jedinice, a LLM pretumba sve tokene kad mu se uputi prompt.

Problemi nastaju kad se počinju pojavljivati pogrešni odgovori ili kad konkurencija objavi da, na primjer, Gemini 1.5 može obraditi do milion tokena unosa, što je ekvivalentno oko 4 miliona znakova ili 800.000 riječi. Kako je to 700 puta više od recimo OpenAI-jevog GPT-4, treba što prije napuniti „skladište“. Glavni cilj, da bi se nadvisila konkurencija, razumjeti i stvarati kompleksnije i kvalitetnije tekstove, kao što su romani, eseji ili govori ili kompletni scenariji za filmove i televiziju.

Kreatori tekstova i dalje vlasnici

Prvo, bitno je naglasiti: kreatori tekstova su i dalje vlasnici ali su platformi dali pravo da dalje s njima gospodari. Evo kako je to regulirano u Uvjetima korištenja na platformi Reddit:

„Zadržavate sva vlasnička prava koja imate nad kreiranim sadržajem, ali Redditu dodjeljujete sljedeću licencu za korištenje tog sadržaja:

Kada kreirate sadržaj i korištenjem našeg servisa unesete u našu platformu, vi nam dodjeljujete svjetsku, besplatnu, trajnu, neopozivu, neekskluzivnu, prenosivu i sublicenciranu licencu za korištenje, kopiranje, modificiranje, prilagođavanje, stvaranje izvedenih djela, distribuciju, pohranu, izvođenje i prikazivanje vašeg sadržaja i svakog imena, korisničkog imena, glasa ili sličnosti u vezi s vašim sadržajem u svim medijskim formatima i kanalima koji su poznati ili će se razviti bilo gdje u svijetu.

Pročitajte još

Ova licenca uključuje pravo da vaš sadržaj stavimo na raspolaganje za sindikaciju, emitiranje, distribuciju ili objavljivanje od strane drugih tvrtki, organizacija ili pojedinaca koji surađuju s Redditom. Također se slažete da možemo ukloniti metapodatke povezane s vašim sadržajem i vi nepovratno odustajete od bilo kakvih zahtjeva i moralnih prava u odnosu na vaše sadržaj. Bilo koje ideje, prijedlozi i povratne informacije o Redditu ili našim uslugama koje nam pružite su potpuno dobrovoljni, i slažete se da Reddit može koristiti takve ideje, prijedloge i povratne informacije bez nadoknade ili obveze prema vama.“

Buka se digla ovih dana otkako je Reddit, naslovna stranica interneta, kako se predstavljaju, predao na korištenje sadržaj platforme, stvaran skoro dvadeset godina. Reddit je postigao godišnji sporazum o licenciranju sadržaja vrijedan 60 miliona dolara s neimenovanom tvrtkom za umjetnu inteligenciju. Sadržaj generiran od strane korisnika koristit će se za obuku modela umjetne inteligencije.

Ovaj dogovor je strateški korak jer se Reddit priprema za moguću javnu ponudu dionica (IPO), što bi moglo značiti da je tvrtka vrijedna otprilike 5 milijardi dolara. Kupac, možemo pretpostaviti koji, jer ih nema puno koji bi rado usisali poruke više od 52 miliona dnevno aktivnih korisnika i skoro pola milijarde mjesečno aktivnih korisnika, Njihovi komentari nalaze se u preko 2,2 miliona podforuma ili subreddita.

Raznolika korisnička baza

Značaj Reddita je u tome što ima veliku i raznoliku korisničku bazu i živa je slika mlađe generacije većinom od 18 do 29 godina starosti. Mnogi koji ovih dana protestiraju, brišu svoje račune i tisuće komentara očito nikada nisu pročitali ili razmišljali o Uvjetima korištenja a koji nisu u ničemu posebni niti tajni. To je standardni pravni tekst koji se može naći ako se klikne na poveznicu negdje pri dnu stranice gotovo svake platforme ili sajta. Napisan od strane pravnika, nije lako razumjeti što se sve tu traži i obećava, ali kratki sažetak govori, slikovito, „što ste nam dali, mi smo vam uzeli“.

Pojedinci nemaju puno što prigovarati jer su na to pristali kroz Uvjete korištenja. Druga je priča kad The New York Times tuži OpenAI i Microsoft zbog upotrebe sadržaja iz njegovih autorskih djela. Milijuni članaka su korišteni za obuku chatbotova koji su sada postali njihova konkurencija. Epizoda s Redditom je samo početak dealova koji će LLM kompanije ugovarati s platformama.

Pravo su bogatstvo sadržaji stvarani desetljećima. Treba se na to priviknuti, i konačno shvatiti da nije šala izreka „Kada je nešto online besplatno, vi niste kupac, već proizvod.“ Svi koji kreiraju sadržaj online – uključujući i ovdje – sada su samo dobrovoljni, ali neplaćeni radnici na farmi obuke tuđih LLM-ova.