parentesis.com/

Microsoft creó una voz de IA tan real, que es demasiado peligroso publicarla


El sistema de texto a voz basado en IA es capaz de crear voces muy realistas, fluidas y naturales.

por: Redacción Paréntesis Redacción Paréntesis

portada de nota
banner custom

Los investigadores de Microsoft dieron a conocer un nuevo sintetizador de voz basado en Inteligencia Artificial, llamado VALL-E 2, que es capaz de crear voces con características muy realistas y fluidas, a partir de indicaciones de texto.

 

A diferencia de sus predecesores, VALL-E 2 puede replicar voces humanas con un alto grado de precisión y naturalidad, lo que lo hace ideal para aplicaciones como asistentes virtuales, audiolibros y otros servicios de voz automatizada.

 

El antecesor de VALL-E 2 es VALL-E, un modelo de inteligencia artificial capaz de imitar cualquier voz humana a partir de una grabación de solo 3 segundos, que fue desarrollado por Microsoft en 2023 y tiene la capacidad de replicar la voz y emular el tono emocional de la grabación que se le dé como muestra.

 

Ahora, con tecnologías mejoradas, VALL-E 2 es además capaz de generar un habla realista, precisa y natural, con la voz exacta del hablante original, con lo cual se ha logrado por primera vez la paridad con la voz humana. 

 

Su nivel de realismo es tal, que, por cuestiones de seguridad, sus desarrolladores han decidido dejarlo sólo como un proyecto de investigación y demostración que, al menos por ahora, no tendrá aplicaciones prácticas ni llegará a manos del usuario final.

 

"Esta página es sólo para fines de demostración de investigación", explica el sitio web de Microsoft. "Actualmente, no tenemos planes de incorporar VALL-E 2 a un producto ni de ampliar el acceso al público".

 

Esto se debe a que su grado de paridad respecto a la voz humana implica un potencial uso indebido y peligroso, con posibles consecuencias negativas significativas si el modelo se utiliza de manera irresponsable. Y es que, en las manos equivocadas, la tecnología avanzada de síntesis de voz podría ser explotada para crear deepfakes de audio, suplantar identidades y difundir desinformación de manera más convincente.

banner custom

Comenta:

separador de nota