Esta herramienta gratuita hace transcripciones de audio en inglés

imagen transcripción
Con Deepgram, las horas de transcripción se convierten en segundos.
imagen transcripción
Con Deepgram, las horas de transcripción se convierten en segundos.

Deepgram, una herramienta para transcribir audios a texto, es gratis para todos a partir de hoy. Esta plataforma funciona aplicando aprendizaje de máquinas a datos de audio, según reportó TechCrunch. Ya no tendremos que pasar horas eternas transcribiendo audios a texto, o pagar servicios costosos como el de Trint (que cuesta desde 12 dólares la hora).

Aunque la plataforma solo funciona para audios en inglés, es una herramienta útil para muchas labores de estudio o de trabajo. Por ejemplo, puedes transcribir en segundos, una entrevista, o el audio de un discurso para hacer un estudio académico.

Deepgram te permite subir un audio que tengas guardado en tu computador, o incluso pegar un enlace de un video de YouTube. Dependiendo del peso del archivo, el sistema se demora unos cuantos segundos procesando el audio. Luego te muestra el texto que logró captar, dividido en cada minuto de la duración.

La plataforma usa ‘deep learning’, una especie más compleja de aprendizaje de máquinas, que funciona con redes neuronales (similar al funcionamiento del cerebro). Eso quiere decir que los desarrolladores han estado ‘entrenando’ al sistema con palabras en inglés para que sea capaz de reconocerlas y ponerlas en texto. Es por eso que Deepgram solo funciona para audios en inglés.

¿Cómo quedan las transcripciones?

La versión gratis es muy rústica. Eso quiere decir que no asimila signos de puntuación y ciertos términos, como marcas o productos. Para que el sistema logre esas particularidades, sí tocaría pagar una mensualidad. Pero ¿qué es poner un par de puntos y comas en comparación con horas de transcripción?

Otras limitaciones de la plataforma tienen que ver con los tonos de las voces. Estuvimos probando con algunos audios y para el caso de las canciones, el sistema no es muy hábil a la hora de reconocer la ‘letra’.

Tampoco parece captar discursos con un tono artístico. Por ejemplo, intentamos con un fragmento del famoso discurso ‘Yo tengo un sueño’ de Martin Luther King, pero el sistema no reconoció más que un par de frases de un audio de dos minutos.

En cambio, subimos un audio de una entrevista a Barack Obama con Ellen Degeneres. El tono es más convencional y el audio es limpio. Por lo tanto, la transcripción salió tal como esperábamos:

¿Cómo funciona la plataforma?

Deepgram tiene un navegador que te permite buscar palabras clave. Esto es particularmente útil para transcripciones largas. El reporte de TechCrunch dice que el sistema es hábil a la hora de buscar dentro del texto. Por ejemplo, en una entrevista de una hora, el periodista dice que solo le tomó dos intentos encontrar el segmento del diálogo que estaba buscando.

“La ASR [reconocimiento autómata de voz] aún no está resuelta… está lista para sets específicos de datos pero con datos con acentos o ruidosos, cualquier servicio hará un mal trabajo”, le dijo al medio Scott Stephenson, cofundador y CEO de Deepgram. Vale la pena decir que en una de mis pruebas, subí el audio de una entrevista en la que hablo en inglés, con un acento latino moderado, y reconoció mis palabras a la perfección.

Finalmente, la oferta gratis tiene un límite: si usas más de un millón de minutos, te comenzarán a cobrar. La computación es costosa, así que tendría sentido cobrar si pones a un sistema a procesar un archivo de audio de 50 terabytes.

Imágenes: capturas de pantalla y Wikipedia.

Susana Angulo

Susana Angulo

Antes de Internet ya me gustaban la música clásica, los animales,
cocinar postres, y leer cuentos de terror. La tecnología me ha
permitido ahondar en estas y tantas otras pasiones, que sería un error
pensar en la cultura digital como tema exclusivo de 'geeks'. Soy
periodista de la Universidad del Rosario.

View all posts

1 comment

  • Esto es lo que necesitaba para reforzar mi autoaprendizaje de ingles y tambien para poder estar al dia con mis cursos de Microsoft MVA y de Google sobre Tensor Flow, a veces tengo que repasar los videos hasta tres veces para poder entenderlos de oido pero ahora estoy mas que seguro que con una sola vez sera mas que suficiente.

Archivos