Los investigadores de Microsoft dieron a conocer un nuevo sintetizador de voz basado en Inteligencia Artificial, llamado VALL-E 2, que es capaz de crear voces con caracterÃsticas muy realistas y fluidas, a partir de indicaciones de texto.
Â
A diferencia de sus predecesores, VALL-E 2 puede replicar voces humanas con un alto grado de precisión y naturalidad, lo que lo hace ideal para aplicaciones como asistentes virtuales, audiolibros y otros servicios de voz automatizada.
Â
El antecesor de VALL-E 2 es VALL-E, un modelo de inteligencia artificial capaz de imitar cualquier voz humana a partir de una grabación de solo 3 segundos, que fue desarrollado por Microsoft en 2023 y tiene la capacidad de replicar la voz y emular el tono emocional de la grabación que se le dé como muestra.
Â
Ahora, con tecnologÃas mejoradas, VALL-E 2 es además capaz de generar un habla realista, precisa y natural, con la voz exacta del hablante original, con lo cual se ha logrado por primera vez la paridad con la voz humana.Â
Â
Su nivel de realismo es tal, que, por cuestiones de seguridad, sus desarrolladores han decidido dejarlo sólo como un proyecto de investigación y demostración que, al menos por ahora, no tendrá aplicaciones prácticas ni llegará a manos del usuario final.
Â
"Esta página es sólo para fines de demostración de investigación", explica el sitio web de Microsoft. "Actualmente, no tenemos planes de incorporar VALL-E 2 a un producto ni de ampliar el acceso al público".
Â
Esto se debe a que su grado de paridad respecto a la voz humana implica un potencial uso indebido y peligroso, con posibles consecuencias negativas significativas si el modelo se utiliza de manera irresponsable. Y es que, en las manos equivocadas, la tecnologÃa avanzada de sÃntesis de voz podrÃa ser explotada para crear deepfakes de audio, suplantar identidades y difundir desinformación de manera más convincente.