El nuevo traductor de Google emula la voz y el tono del emisor

Los sistemas de traducción del habla han ayudado durante décadas a personas que no hablan el mismo idioma a entenderse, o al menos intentarlo. Los programas convencionales de esta tecnología suelen coger el habla, pasarla a texto, traducirla y convertirla en un nuevo audio sintético. Pero Google está preparando un sistema mucho más avanzado.

Aunque el proyecto aún está en fase preliminar, Google ha desvelado algunos de los avances de Translatotron, un nuevo traductor que puede hacer su trabajo manteniendo, o emulando muy de cerca, la voz y el tono del emisor. Es decir, que la traducción final puede sonar más parecida a una persona que a una máquina.

El traductor de Google es uno de los ejemplos más exitosos del modelo convencional de la traducción digital que hoy en día está disponible para cualquier persona con acceso a internet. Pero la compañía quiere llevar la tecnología al próximo nivel y ofrecer en el futuro no muy lejano un traductor que mantenga las cualidades humanas del habla.

Estos son algunos ejemplos de lo que, hasta ahora, es capaz de lograr Translatotron. Hay que escuchar los audios en orden, que va de la frase original y la traducción estándar hasta el resultado del Translatotron:

Así funciona Translatotron, el nuevo traductor de Google

Como se puede escuchar en los ejemplos, el resultado no es perfecto, pero Google dice que trabaja para mejorarlo antes de permitir al público acceder a la tecnología. En todo caso, no cabe duda de que el habla de la última traducción suena mucho más natural y humana que el de la segunda, que es la que suena como una máquina sin sentimientos.

La web del MIT Technology Review explica que Translatotron tiene tres componentes: uno utiliza una red neuronal entrenada para mapear la representación visual del audio (lo que se conoce como espectrograma), el segundo convierte esto en una onda de audio reproducible, y el tercero pone las características vocales del orador original en la traducción final.

No solo suena más humana la traducción, sino que se supone que este tipo de sistemas pueden mejorar las capacidades de la traducción, al contemplar desde un inicio el tono, las pausas y otros signos de la comunicación que suelen perderse en las traducciones digitales tradicionales.

«Según nuestro conocimiento, Translatotron es el primer modelo de extremo a extremo que puede traducir directamente el habla en un idioma al habla en otro idioma», dice Google. «También puede retener la voz del orador fuente en el discurso traducido». La empresa dice que espera que este sea el punto de partida de futuros sistemas de traducción de voz.

Hay más ejemplos de las traducciones de Translatotron en este enlace.