Tecnología

Así es Google Translatotron: el primer sistema que traduce tu voz sin convertirla en texto

Así es Google Translatotron: el primer sistema que traduce tu voz sin convertirla en texto

Esta herramienta combina diferentes tecnologías ya desarrolladas que empiezan, además, a formar parte de la jungla electrónica en la que reside el usuario

La tecnología, elemento indispensable para romper las barreras, también idiomáticas. La evolución de los servicios basados en Inteligencia Artificial supera nuevos desafíos. Varias décadas después de desarrollar los primeros «convertidores» de audio, Google ha sido capaz de desarrollar un software que puede traducir la voz humana -de un idioma- a otro sin depender necesariamente de texto.

Su nombre, sin embargo, suena a película de ciencia-ficción; Translatotron. No oculta sus intenciones porque está concebido para mejorar la relación entre el humano y la máquina, pero, como extensión, mejorar las comunicaciones entre personas igualando así sus condiciones (y limitaciones) idiomáticas. Un sistema que, en un futuro, puede dar pie a traductores automáticos como si se tratase de un teléfono móvil.

Esta herramienta combina diferentes tecnologías ya desarrolladas que empiezan, además, a formar parte de la jungla electrónica en la que reside el usuario. Tradicionalmente, estos sistemas se han dividido en tres componentes independientes: reconocimiento de voz automático que transcriben la voz de origen como texto, los sistemas de traducción automática que convierten el texto transcrito al idioma de destino y, por último, la capacidad de sintetizar texto y voz para generar audio. Es decir, una traducción simultánea y sin apenas intermediarios.

Google va más allá; ahora ha ideado el mecanismo para traducir de manera automática y realizar una traducción de voz a voz, con resultados muy precisos e, incluso, intentar «imitar» el habla de la persona. «Este sistema evita dividir la traducción en etapas separadas, con lo que aporta algunas ventajas sobre otras soluciones, incluido una mayor velocidad y evitando errores de composición entre el reconocimiento y la traducción, lo que facilita la retención de la voz del hablante original después de la traducción y un mejor manejo de palabras que no necesitan ser traducidas, por ejemplo, nombres propios», señalan en un comunicado fuentes del gigante de internet.

El proyecto, todavía en fase de pruebas, se basa en una red de secuencia a secuencia que procesa el audio de origen en espectrogramas y lo trata como un código de entrada, generando otros nuevos modelos de audio con contenido traducido para, posteriormente, convertir en idioma de destino.

También hace uso de otros dos sistemas, que permanecen en estratos desconectados: un vocoder neuronal -un sintetizador de voz- que convierte el resultado final de los espectrogramas en ondas interpretables por la máquina y un codificador que se emplea para emular el color de la voz del interlocutor de origen. Todo este proceso da como resultado un sistema que emite las palabras del emisor de manera más natural. La compañía ha expuesto, además, algunos logros alcanzados por este ingenio a través de varios clips de audio.