Meta lanza sistema de IA que permite una traducción de idiomas increíblemente más humana

ROBOT TRADUCTOR

Meta, casa matriz de Facebook e Instagram, presentó un conjunto de modelos de traducción de idiomas con IA que prometen preservar la expresión y la comunicación para que esta sea más humana.

La idea del gigante tecnológico es que no se transmita solo palabras, sino que que esta tenga una intención humana. “El tono de voz, las pausas y el énfasis transmiten señales importantes que nos ayudan a comunicar emociones e intenciones. Además, el habla y la traducción humanas son sensibles a matices como los controles de turnos y tiempos”, explica Meta.

Los intérpretes humanos “encuentran el equilibrio perfecto entre baja latencia y traducciones precisas. Esperar demasiado sofoca el flujo de comunicación, mientras que ir demasiado rápido compromete la calidad general de una traducción. Los sistemas de traducción que permiten conversaciones auténticas deben abarcar todos estos elementos de comunicación”.

Te puede interesar: IA de Google halla aleación de materiales inigualables; ¿de qué se harán carros y aviones en el futuro?

Para lograr esa comunicación casi humana, Meta lanzó Seamless Expression , el primer sistema disponible públicamente que desbloquea la comunicación expresiva entre idiomas en tiempo real.

Este modelo puede preservar la expresión en la traducción de voz a voz, además Meta también presentó SeamlessStreaming, un modelo de traducción en streaming que ofrece resultados de última generación con alrededor de dos segundos de latencia.

“Todos los modelos se basan en SeamlessM4T v2, la última versión del modelo fundamental que lanzamos en agosto. SeamlessM4T v2 demuestra mejoras de rendimiento para las capacidades de reconocimiento automático de voz, voz a voz, voz a texto y texto a voz”, explica la compañía.

Cabe mencionar que SeamlessStreaming desbloquea conversaciones en tiempo real con alguien que habla un idioma diferente generando la traducción mientras el hablante sigue hablando.

Meta asegura que a diferencia de los sistemas convencionales que traducen cuando el hablante ha terminado su frase, SeamlessStreaming traduce mientras el hablante sigue hablando. Esto significa que la persona con la que están hablando puede escuchar una traducción casi en tiempo real (hay un retraso de unos segundos) en lugar de esperar hasta que el orador haya terminado su oración.

Además este sistema admite el reconocimiento automático de voz y la traducción de voz a texto para casi 100 idiomas de entrada y salida, y la traducción de voz a voz para casi 100 idiomas de entrada y 36 idiomas de salida. De acuerdo con nuestro enfoque de ciencia abierta, estamos lanzando públicamente los cuatro modelos para permitir a los investigadores desarrollar este trabajo.

Te puede interesar: ¿Qué tanto redactas tú y qué tomas de ChatGPT en realidad? iA Writer separa texto humano de texto IA

Finalmente, Meta también lanzó modelos de metadatos, datos y herramientas de alineación de datos para ayudar a la comunidad de investigación, que incluyen:

“Metadatos de una extensión de SeamlessAlign correspondiente a 115.000 horas adicionales de alineaciones de voz y texto además de las 470.000 horas existentes. Además de más horas, la última versión de SeamlessAlign cubre una gama más amplia de idiomas (de 37 antes a 76 con la extensión). Este corpus es el mayor corpus público paralelo de discurso/discurso y discurso/texto en términos de volumen total y cobertura lingüística hasta la fecha”.

IMAGEN: style-photography

Digna Irene Urrea

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Archivos