Negli ultimi anni, l’utilizzo dei generatori di immagini basati sull’intelligenza artificiale (AI) è diventato sempre più comune e diffuso. Questo è dovuto sia alla loro ampia disponibilità, sia al costante bombardamento di annunci pubblicitari che invitano a provarli, sia all’evidente miglioramento delle capacità tecniche e delle risorse necessarie per ottenere risultati accettabili.
Praticamente tutti i principali attori nel campo della tecnologia, tra cui Google e Microsoft, hanno utilizzato i generatori di immagini basati sull’IA. Allo stesso tempo, molte startup si sono impegnate a cercare di ottenere una fetta del settore dell’IA generativa, sempre più redditizio.
Tuttavia, nonostante l’invasione di questi generatori di immagini, rimane evidente che presentano ancora alcuni difetti. Sia a causa dell’incapacità di processare correttamente alcuni aspetti del corpo umano, sia a causa di piccoli errori che occasionalmente si verificano.
Per sottolineare proprio questi difetti, Meta afferma di aver fatto un passo avanti con il suo nuovo modello di intelligenza artificiale chiamato CM3Leon. Questo modello è in grado di generare immagini in modo avveniristico a partire da una descrizione testuale. Inoltre, CM3Leon si distingue per essere uno dei primi generatori in grado di creare didascalie per le immagini, aprendo la strada a modelli di comprensione delle immagini più avanzati in futuro.
Secondo Meta, gli strumenti di generazione di immagini potranno produrre immagini più coerenti seguendo meglio le richieste di input grazie alle capacità di CM3Leon. L’azienda crede che le ottime prestazioni di questo modello in vari compiti rappresentino un passo avanti verso la generazione e la comprensione di immagini di maggiore fedeltà.
La maggior parte dei moderni generatori di immagini, come DALL-E 2 di OpenAI, Imagen di Google e Stable Diffusion, utilizzano un processo chiamato diffusione creativa. Questo processo gradualmente rimuove il rumore da un’immagine di partenza per avvicinarla alla descrizione contenuta nel testo. I risultati ottenuti sono indubbiamente impressionanti, ma la diffusione creativa richiede un elevato volume di calcoli che la rende impraticabile nella maggior parte delle applicazioni in tempo reale.
Al contrario, CM3Leon è un modello basato su trasformatori che utilizza un meccanismo chiamato “attenzione” per valutare la rilevanza dei dati in ingresso, come testo o immagini. Grazie all’attenzione e alle altre caratteristiche dei trasformatori, è possibile aumentare la velocità di addestramento e renderli più facilmente parallelizzabili. Ciò significa che è possibile addestrare trasformatori sempre più potenti in grado di elaborare volumi di calcolo in modo più efficiente.
Meta sostiene che CM3Leon è addirittura più efficiente degli attuali trasformatori presenti nel settore, richiedendo un volume di calcolo cinque volte inferiore rispetto alla media, oltre a una quantità minore di dati per essere addestrato.
Per addestrare CM3Leon, Meta ha utilizzato un dataset di milioni di immagini concesse in licenza da Shutterstock. La versione più efficiente di CM3Leon al momento conta 7 miliardi di parametri, più del doppio di DALL-E 2. Al momento, Meta non ha comunicato se e quando rilascerà il suo nuovo generatore di immagini, ma sarà interessante vedere come la concorrenza reagirà dopo aver inizialmente trascurato i trasformatori a favore di altri modelli.
Meta: il nostro generatore di immagini IA batte tutti gli altri.
Negli ultimi anni, i generatori di immagini basati sull’intelligenza artificiale sono diventati sempre più comuni e diffusi. Questo è dovuto alla disponibilità di una vasta gamma di generatori e all’abbondanza di pubblicità che li promuovono. Inoltre, i limiti tecnici e le risorse necessarie per ottenere risultati accettabili sono diminuiti. Questi generatori sono stati utilizzati da molte aziende tecnologiche, tra cui Google e Microsoft, e da numerose startup nel settore dell’intelligenza artificiale generativa. Tuttavia, questi generatori possono ancora presentare difetti evidenti, come l’incapacità di gestire correttamente alcuni aspetti del corpo umano o piccoli errori. Meta sostiene di aver fatto un passo avanti con il suo nuovo generatore CM3Leon, che produce immagini in base a descrizioni testuali e può anche creare didascalie per le immagini. CM3Leon utilizza un meccanismo chiamato “attenzione” per valutare la rilevanza dei dati in ingresso, consentendo un addestramento più rapido e efficiente rispetto ad altri modelli di trasformatori presenti sul mercato. Meta ha utilizzato un ampio dataset di milioni di immagini concesse in licenza da Shutterstock per addestrare CM3Leon. Non è ancora chiaro quando sarà rilasciato il generatore di immagini di Meta e quale sarà la risposta della concorrenza.