Il futuro digitale è in pericolo: le IA si istruiscono con copie di libri pirata

0

Il New York Times sta discutendo delle cosiddette “biblioteche ombra”, termine che si riferisce a cataloghi digitali non autorizzati. Alcuni esempi di queste biblioteche includono Library Genesis (LibGen) per gli e-book e Scientific Hub (Sci-Hub) per gli articoli accademici. Altri noti repository illegali sono Z-Library e Bibliotik, che contengono milioni di titoli, spesso utilizzati come fonti di addestramento per l’intelligenza artificiale (AI).

Le aziende coinvolte nell’intelligenza artificiale sono consapevoli dell’esistenza di queste “biblioteche ombra” e dei documenti di ricerca che contengono. Ad esempio, il sistema GPT-1 di OpenAI è stato addestrato utilizzando BookCorpus, che include oltre 7000 titoli ottenuti da Smashwords, una piattaforma per l’autopubblicazione di e-book. Per GPT-3, OpenAI afferma che circa il 16% dei dati di addestramento proviene da raccolte di libri online denominate genericamente “Books1” e “Books2”. Anche se non è chiaro quali siano queste fonti, molti autori sostengono che siano siti web di “biblioteche ombra” come quelli menzionati sopra.

La comica e attrice statunitense Sarah Silvermann è convinta che ChatGPT sia addestrata utilizzando libri protetti da copyright, mentre altri autori sostengono che biblioteche come Books2 siano palesemente illegali. Questi siti sono stati monitorati per vari periodi e uno studio ha rivelato che durante il periodo tra il 2016 e il 2017, i testi piratati hanno contribuito a una diminuzione del mercato dei libri legali del 14%.

Recentemente, alcuni autori hanno citato in giudizio ChatGPT affermando che il sistema viola i loro diritti d’autore. Nell’azione legale presentata presso la corte federale di San Francisco, si sostiene che OpenAI ha utilizzato opere protette da copyright senza il consenso, il riconoscimento e il compenso degli autori.

Poiché i sistemi di intelligenza artificiale non possono funzionare senza informazioni prese da qualche parte, i grandi modelli di linguaggio (Llm) che alimentano ChatGPT sono considerati opere derivare che violano i diritti d’autore. Secondo la documentazione presentata in tribunale, questi modelli sono realizzati senza l’autorizzazione dei querelanti e violano i loro diritti esclusivi secondo la legge sul copyright.

Per leggere altre notizie sull’intelligenza artificiale, è possibile visitare una pagina dedicata su macitynet.

Le IA istruite con copie di libri pirata, il futuro digitale con basi illegali

Il New York Times ha parlato delle “biblioteche ombra”, ovvero cataloghi digitali non autorizzati che includono Library Genesis (LibGen) per gli e-book e Scientific Hub (Sci-Hub) per gli articoli accademici. Aziende che lavorano sull’Intelligenza Artificiale, come OpenAI, hanno utilizzato questi cataloghi per addestrare i loro modelli di IA. Tuttavia, ci sono controversie riguardo alla legalità di queste biblioteche, con alcuni autori che sostengono che siano illegali e violino i loro diritti d’autore. Di recente, alcune cause legali sono state presentate contro ChatGPT di OpenAI, affermando che la tecnologia viola il copyright. Le fonti per gli addestramenti dei modelli di IA non sono chiare, ma potrebbero includere anche queste biblioteche ombra.