Meta AI presenta Seamless: un sistema de inteligencia artificial disponible públicamente que desbloquea la comunicación multilingüe expresiva en tiempo real

Meta AI presenta Seamless: un sistema de inteligencia artificial disponible públicamente que desbloquea la comunicación multilingüe expresiva en tiempo real

https://ai.meta.com/research/publications/seamless-multilingual-expressed-and-streaming-speech-translation/

Las nuevas funciones y mejoras en la traducción automática de voz han permitido lograr mucho más, cubrir más idiomas y trabajar con más formatos de entrada. Sin embargo, las capacidades cruciales que hacen que la comunicación automatizada sea más natural que la conversación entre humanos actualmente faltan en los sistemas de traducción de voz automatizados a gran escala.

Un nuevo estudio de Meta AI presenta un conjunto de modelos capaces de ofrecer traducciones expresivas y multilingües de principio a fin. Los investigadores comenzaron presentando SeamlessM4T v2, una versión mejorada del modelo SeamlessM4T que es multimodal y admite casi todos los idiomas. Este modelo mejorado, que utiliza una versión más nueva del marco UnitY2, se entrenó con datos lingüísticos que requieren menos recursos. Con la expansión de SeamlessAlign, se alinean automáticamente un total de 76 lenguajes de datos (114.800 horas). Los dos modelos más nuevos, SeamlessExpression y SeamlessStreaming, se basan en SeamlessM4T v2. Con SeamlessExpression, los usuarios pueden traducir conservando todas las inflexiones y estilos vocales.

El estudio de Meta preserva el estilo de la voz al tiempo que aborda algunas características poco exploradas de la prosodia, como el ritmo y las pausas del habla, que se han pasado por alto en intentos anteriores de investigación del habla expresiva. En cuanto a SeamlessStreaming, el modelo propuesto no espera a que finalicen las expresiones de origen para producir traducciones de destino con baja latencia; en su lugar, utiliza la técnica EMMA (Efficient Monotonic Multihead Attention). Con SeamlessStreaming, el primero de su tipo, muchos idiomas de origen y de destino pueden realizar sus traducciones de voz a texto simultáneamente.

READ  Microsoft extiende los elementos de chat de IA a Bing Mobile, Edge y Skype

El equipo evaluó la prosodia, la latencia y la solidez de estos modelos basándose en una combinación de versiones nuevas y actualizadas de mediciones automáticas preexistentes. Para realizar evaluaciones humanas, modificaron protocolos preexistentes para medir las cualidades más importantes de retención de significado, autenticidad y expresividad. Llevaron a cabo una evaluación integral del sesgo de género, el primer esfuerzo conocido de equipo rojo para la traducción automática multimodal, el primer sistema conocido para detectar y mitigar la toxicidad adicional y un mecanismo de marca de agua localizada inaudible para mitigar el impacto de los deepfakes y garantizar que sus modelos puedan usarse. responsablemente y con seguridad.

Seamless es el primer sistema disponible públicamente que permite la comunicación multilingüe expresiva en tiempo real. Combina SeamlessExpression y SeamlessStreaming, que reúne componentes principales. En general, Seamless ofrece una visión crucial de las tecnologías subyacentes necesarias para convertir el traductor de voz universal de una idea de ciencia ficción a una realidad.

Los investigadores señalan que la precisión del modelo puede diferir según el género, la raza o el acento, aunque probamos exhaustivamente nuestros artefactos en varios ejes de equidad e incluimos salvaguardias cuando fue posible. Se deben continuar investigaciones adicionales dirigidas a mejorar la cobertura lingüística y reducir las disparidades de rendimiento entre los idiomas de bajos y altos recursos para hacer realidad el traductor de voz universal.


Controlar Papel Y Artículo de referencia. Todo el crédito por esta investigación va a los investigadores de este proyecto. Tampoco olvides registrarte. nuestro SubReddit 33k+ ML, Más de 41.000 comunidades de Facebook, Canal de discordia, Y Correo electrónicodonde compartimos las últimas noticias de investigación de IA, proyectos interesantes de IA y mucho más.

READ  MWC 2024: el Pixel 8 de Google anunciado como el "mejor teléfono inteligente" de 2023. Todo lo que necesitas saber

Si te gusta nuestro trabajo, te encantará nuestro boletín.

Dhanshree Shenwai es un ingeniero en informática con buena experiencia en empresas de tecnología financiera que abarcan finanzas, tarjetas y pagos y banca, con un gran interés en las aplicaciones de inteligencia artificial. Le entusiasma explorar nuevas tecnologías y avances en el cambiante mundo actual que hacen la vida de todos más fácil.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *