Voicebox, la nueva IA multilingüe de Mark Zuckerberg que produce y edita audio pregrabado

junio 16, 2023

Meta sigue acortando camino con grandes gigantes tecnológicos como Google y Microsoft en tanto al desarrollo de inteligencias artificiales que le faciliten la vida a la humanidad. Esta vez la compañía anunció el lanzamiento de Voicebox, una IA generativa que puede hacer mucho más que producir audio o editarlo, ya que cuenta con funciones muy avanzadas en comparación a programa de edición del momento.

Quitar el pitido de un carro, el ladrido de un perro o el grito de una persona, mientras conserva el contenido y el estilo del audio, es lo que promete Meta con este lanzamiento. Es un modelo de inteligencia artificial de última generación que puede realizar tareas de generación de voz, como editar, muestrear y estilizar; además de tener la capacidad de producir voz en seis idiomas.

La compañía aseguró que puede llegar a producir voces o sonidos naturales para que los asistentes virtuales, personajes o los avatares en el metaverso, por ejemplo, hablen como si se tratara de una persona real.

Según esta IA podría ayudar a las personas con discapacidad visual escuchar mensajes escritos de amigos leídos por IA en sus voces. Además de permitirle a los creadores de contenido utilizar nuevas herramientas para crear y editar fácilmente pistas de audio para videos pensando en este tipo de seguidores.

Te puede interesar: Meta lanza I-JEPA, una IA que puede aprender como los humanos: observando

Sin embargo, ahí no queda todo, porque además de lo ya mencionado puede resumir texto a voz en contexto, tan solo con una muestra de audio de solo dos segundos de duración.

En tanto a la edición de voz y reducción de ruido, el modelo generativo puede recrear una parte de la voz interrumpida por el ruido o reemplazar palabras mal pronunciadas sin tener que volver a grabar una voz completa.

Por ejemplo, puede identificar un segmento de un discurso interrumpido por el ladrido de un perro, cortarlo e indicarle a Voicebox que vuelva a generar ese segmento, como un borrador para la edición de audio.

Por otra parte, la IA puede convertir un texto en inglés, francés, alemán, español, polaco o portugués, en audio y reproducirlo en cualquiera de estos idiomas, de hecho Meta explica que lo puede hacer, incluso cuando el discurso de muestra y el texto están en diferentes idiomas.

Te puede interesar: La IA generativa impulsaría ola productiva “agregando” billones a la economía global

Voicebox se basa en un método llamado ‘Flow Matching’ no autorregresivo, que ha demostrado mejorar los modelos de difusión. El gigante tecnológico asegura que la IA “supera al actual modelo inglés de última generación VALL-E en conversión de texto a voz de tiro cero en términos de inteligibilidad y similitud de audio mientras que es hasta 20 veces más rápido”.

Es decir, la IA puede aprender “un mapeo altamente no determinista entre texto y voz. El mapeo no determinista es útil porque permite que Voicebox aprenda de datos de voz variados sin que esas variaciones tengan que etiquetarse cuidadosamente”. Esto significa que la herramienta puede entrenarse con datos más diversos y una escala de datos mucho mayor.

Imagen: Captura de pantalla

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Voicebox, la nueva IA multilingüe de Mark Zuckerberg que produce y edita audio pregrabado

Te puede interesar: Meta lanza I-JEPA, una IA que puede aprender como los humanos: observando

Te puede interesar: La IA generativa impulsaría ola productiva “agregando” billones a la economía global

Digna Irene Urrea

Relacionados

Microsoft Build 2026: así funcionan los nuevos agentes de IA y modelos que cambiarán el desarrollo

DOROKY CORE, la IA educativa offline para colegios rurales sin Internet

España aprueba ley para regular la inteligencia artificial con multas de hasta 35 millones de euros

Solo 22% de colombianos usa IA y ya está cambiando la administración de conjuntos residenciales

ENTER entrevistó a Patrick McGinnis, creador del FOMO: “La IA ya mueve decisiones por miedo”

Lo más leído de la semana

Honor WIN Turbo oficial: batería de 10.000 mAh y pantalla de 6,79 pulgadas

Euro-Office oficial: funciones y diferencias frente a Microsoft 365

Moto g max en Colombia: precio, características y cámara de 200 MP con IA y batería de 5200 mAh

Huawei Nova 16 Ultra oficial: cámara de 200 MP y batería de 7.000 mAh

Dónde ver los 104 partidos del Mundial 2026 en Latinoamérica, EE.UU. y España

Samsung Galaxy S27 Ultra tendría cámara de 200 MP, batería gigante y nuevo diseño horizontal

Motorola razr 70 Ultra, razr 70 y razr fold en Colombia: precio, características e IA

Android estrena función contra llamadas falsas: así puedes activarla y evitar estafas con IA

Archivos

Voicebox, la nueva IA multilingüe de Mark Zuckerberg que produce y edita audio pregrabado

Te puede interesar: Meta lanza I-JEPA, una IA que puede aprender como los humanos: observando

Te puede interesar: La IA generativa impulsaría ola productiva “agregando” billones a la economía global

Digna Irene Urrea

You may also like

Relacionados

Lo más leído de la semana

Archivos