Uno dei problemi principali dell’intelligenza artificiale generativa è che viene sviluppata in segreto. Per produrre testi, sistemi come ChatGPT elaborano enormi quantità di materiale scritto, ma da dove provengano questi testi è un dato che - al di fuori di aziende come OpenAI - in pochi conoscono. Oggi sappiamo che molti contenuti provengono da Wikipedia, portali web e, come scrivevamo qualche giorno fa, persino articoli giornalistici. Ma all’interno dei database di questi grandi modelli linguistici ci sono anche tanti libri, almeno 200.000. Solo che nessuno ha pagato per i loro diritti.

L’archivio si chiama Book3 ed è stato utilizzato da molte aziende per addestrare i propri sistemi di AI. In breve, questo database contiene libri di autori come J.K. Rowling, Stephen King, Sarah Silverman e altre migliaia di autori che però non hanno acconsentito a questa operazione. L’esistenza dell’archivio è stata svelata da un’inchiesta del The Atlantic, che ha spiegato come molti dei libri usati per addestrare le AI siano piuttosto recenti, circa degli ultimi 20 anni.

Circa un terzo dei libri sono opere di narrativa, due terzi di saggistica. Provengono da editori grandi e piccoli. Questo fa emergere una domanda: è giusto che i modelli di AI vengano addestrati su opere protette dal diritto d’autore? Le aziende si difendono spiegando di operare secondo il “fair use”, cioè: gli strumenti di AI generativa non replicano i libri su cui sono stati addestrati ma producono invece nuove opere e queste nuove opere non danneggiano il mercato commerciale degli originali. Ma la verità è che la situazione è ben più complessa perché completamente nuova.

image