La empresa francesa Mistral lanzó Voxtral, un modelo de inteligencia artificial enfocado en transcripción y comprensión de voz. Es capaz de procesar audios de hasta 30 minutos para transcripción y 40 minutos para tareas de análisis y resumen de contenido. El modelo puede responder preguntas directamente sobre lo que se escucha en el audio.
Voxtral se lanza en dos versiones: una de 24 mil millones de parámetros orientada a entornos de producción y otra de 3 mil millones pensada para ejecución local o en dispositivos de borde. Ambas están disponibles bajo licencia Apache 2.0. La descarga se puede realizar desde Hugging Face y también se ofrece acceso mediante API.
Entre sus funciones se incluyen transcripción, generación de resúmenes estructurados, detección automática de idioma y respuestas a preguntas sin necesidad de encadenar modelos separados. Estas capacidades buscan facilitar el uso de la voz como una interfaz directa con los sistemas digitales. También se admite la activación de funciones a partir de comandos hablados.
Mistral afirma que Voxtral supera a modelos como Whisper de OpenAI y Scribe de ElevenLabs en tareas multilingües. En pruebas con inglés, español, francés, alemán, portugués, hindi y otros idiomas, el modelo mostró menores tasas de error en la transcripción. También obtuvo buenos resultados en comprensión semántica y generación de respuestas.
La compañía señala que uno de los principales diferenciadores es el costo. Voxtral Mini Transcribe, por ejemplo, ofrece mayor rendimiento que Whisper a menos de la mitad del precio. El acceso a la API comienza en 0,001 dólares por minuto, lo que permite su uso en proyectos de gran escala con presupuestos limitados.
Te puede interesar: La nueva IA china que programa sola: así funciona Kimi K2, pensada para desarrolladores
En términos de integración, Voxtral está diseñado para funcionar con una sola llamada de API. Además, se puede probar directamente en Le Chat, el asistente conversacional de Mistral, disponible en versión web y móvil. Los usuarios pueden grabar o subir un audio, obtener la transcripción y realizar preguntas sobre el contenido.
El modelo también conserva la capacidad de comprensión de texto de su arquitectura base, Mistral Small 3.1. Esto permite utilizarlo como reemplazo en tareas que combinan procesamiento de texto y voz. Asimismo, incluye un punto de acceso optimizado exclusivamente para transcripción, enfocado en la eficiencia de costos.
Para entornos empresariales, Mistral ofrece opciones de implementación privada, soporte para dominios especializados y herramientas de integración personalizadas. También se encuentran en desarrollo funciones adicionales como segmentación por hablante, análisis emocional, marcas temporales por palabra y reconocimiento de audio no verbal.
El lanzamiento de Voxtral marca un avance en la oferta de modelos abiertos para voz y comprensión auditiva. Mistral busca posicionarse como una opción accesible para organizaciones que necesitan soluciones avanzadas sin depender de APIs cerradas. Según la empresa, el objetivo es facilitar interacciones naturales entre humanos y sistemas digitales.