Il New York Times ha intenzione di fare causa a OpenAI a causa del suo utilizzo “inappropriato” degli articoli del giornale per l’apprendimento di ChatGPT. Questo ha portato alla luce un problema diffuso all’interno dei dataset dell’Intelligenza Artificiale: sono pieni di libri protetti da copyright. Un report dettagliato di The Atlantic spiega che i dataset di LLaMA, ChatGPT e Bard contengono materiale coperto dal diritto d’autore o dal copyright. Ovviamente, l’utilizzo di questi materiali, compreso il training dell’IA e dei suoi Large Language Model, è vietato secondo le normative vigenti negli Stati Uniti e nel resto del mondo.
Secondo The Atlantic, le grandi aziende tecnologiche sfruttano la segretezza dei propri dataset per inserire materiale protetto da copyright. In quanto nessuno può accedere a queste enormi banche dati senza un mandato giudiziario, OpenAI, Meta, Google e altre società ne hanno approfittato per insegnare alle proprie IA a pensare e parlare utilizzando materiale protetto dal diritto d’autore.
Questo caso ha ricevuto molta attenzione dopo le critiche mosse dal New York Times verso l’IA, che potrebbero portare a una causa legale per violazione del copyright contro OpenAI nei prossimi mesi. Tuttavia, il dibattito sulla questione è iniziato dopo una causa legale intentata dagli scrittori Sarah Silverman e Richard Kadrey contro Meta presso un tribunale della California. L’accusa è semplice: Meta avrebbe utilizzato i loro libri per addestrare l’IA di LLaMA, che al momento è disponibile in open access per il grande pubblico.
Oltre a Silverman e Kadrey, autori come Stephen King, Michael Pollan e Zadie Smith sembrano apparire nelle analisi condotte da The Atlantic sui dataset parziali di LLaMA e GPT-4. Si tratta di grandi scrittori e saggisti di fama internazionale. Resta da comprendere se gli autori hanno concesso o meno alle grandi aziende tecnologiche di utilizzare i loro libri come fonte di apprendimento per l’IA.
I database dell’IA sarebbero pieni di libri protetti da copyright: c’anche Stephen King!
Un recente report del The Atlantic ha rivelato che i dataset dell’Intelligenza Artificiale come LLaMA, ChatGPT e Bard sono pieni di materiale coperto da copyright. Le grandi aziende tecnologiche, come OpenAI, Meta e Google, avrebbero sfruttato la segretezza dei loro dataset per utilizzare materiale protetto da copyright nell’addestramento delle IA. Questo ha portato al dibattito sulla violazione dei diritti d’autore e alla possibilità di cause legali, come quella intentata da scrittori come Sarah Silverman e Richard Kadrey contro Meta. Nelle analisi sono stati identificati anche autori famosi come Stephen King, Michael Pollan e Zadie Smith. Resta da chiarire se gli autori hanno dato il permesso alle Big Tech di utilizzare i loro libri come fonte di apprendimento per l’IA. La situazione si è complicata ulteriormente con la possibile causa legale del New York Times contro OpenAI.