Meta lancia SeamlessM4T, il traduttore vocale multilingue che rivoluzionerà la comunicazione globale!

0

Meta sta dimostrando un costante interesse nello sviluppo di un traduttore universale e di recente ha presentato un nuovo modello di sintesi vocale chiamato SeamlessM4T. Questo modello è già in grado di tradurre da voce a testo e viceversa un notevole numero di lingue, con la capacità di riconoscere fino a 100 idiomi, che possono essere automaticamente convertiti in un massimo di 35 lingue.

L’azienda scherza parlando di progressi nella creazione di una sorta di Babel Fish, facendo riferimento al famoso traduttore immaginario presente nel libro “Guida Galattica per Autostoppisti”. Tuttavia, Met sa che c’è ancora molto lavoro da fare per perfezionare la traduzione vocale. I modelli testuali più recenti su cui l’azienda ha lavorato offrono una traduzione automatica fino a 200 lingue, ma in ambito vocale siamo ancora lontani da questo traguardo.

SeamlessM4T sembra essere in vantaggio rispetto ai modelli precedenti grazie alle sue capacità sviluppate sulla base di oltre un milione di ore di dati audio. Questi dati sono stati utilizzati anche per filtrare e prevenire l’utilizzo di linguaggio offensivo o incitante all’odio. Meta ha reso disponibile il suo modello sotto licenza Creative Commons CC BY-NC 4.0, promuovendo una forte collaborazione con sviluppatori esterni interessati a contribuire ai suoi sviluppi.

Meta ha affermato che SeamlessM4T rappresenta “un passo avanti significativo”, in quanto esegue l’intero processo di traduzione in un’unica operazione. A differenza dei modelli convenzionali che suddividono la traduzione su diversi sottosistemi, il nuovo modello lavora in modo integrato senza influire sulle prestazioni finali. Tra le caratteristiche uniche di SeamlessM4T c’è anche la capacità di riconoscere un eventuale cambio di lingua durante il discorso, anche se avviene più volte all’interno delle frasi.

La traduzione linguistica riveste una grande importanza, soprattutto per aziende come Meta che impiegano migliaia di persone per moderare i post sui social in diverse lingue. Spesso, soprattutto per le lingue meno utilizzate, si ricorre a sistemi di moderazione automatica che però offrono un livello di precisione piuttosto basso. L’accesso a un enorme volume di dati e l’intelligenza artificiale potrebbero quindi essere un grande aiuto in questo ambito. Meta è fortemente impegnata nello sviluppo di strumenti di intelligenza artificiale e, come abbiamo già visto, sta lavorando su molte altre innovazioni, come Segment Anything, un sistema di IA in grado di rilevare oggetti senza bisogno di addestramento, o ImageBind, che mira a offrire un’IA generativa multisensoriale. Inoltre, in collaborazione con Microsoft, Meta sta sviluppando Llama 2, un modello linguistico di IA open source che sarà presto disponibile gratuitamente per uso commerciale.

Meta lavora a SeamlessM4T, un traduttore vocale multilingue

L’azienda Meta si mostra interessata alla realizzazione di un traduttore universale e ha presentato un nuovo modello di sintesi vocale chiamato SeamlessM4T, in grado di tradurre da voce a testo e viceversa in diverse lingue. Questo traduttore ha la capacità di riconoscere fino a 100 lingue diverse e di convertirle automaticamente in un massimo di 35 lingue. Meta ha reso disponibile il modello sotto licenza Creative Commons e offre collaborazione agli sviluppatori interessati.

Secondo Meta, SeamlessM4T rappresenta un passo significativo avanti nella traduzione, poiché esegue l’intera attività in una sola volta, a differenza di altri modelli che la dividono su diversi sottosistemi. Inoltre, il traduttore ha la capacità di riconoscere un eventuale cambio di lingua durante il parlato.

L’azienda ritiene che la traduzione linguistica sia importante, soprattutto per moderare i post sui social in diverse lingue. Meta sta lavorando su vari strumenti di intelligenza artificiale, come Segment Anything, un sistema in grado di rilevare oggetti senza addestramento, ImageBind, che offre un’IA generativa multisensoriale, e Llama 2, un modello linguistico IA open source sviluppato in collaborazione con Microsoft.