VALL-E, La inteligencia artificial que imita voces con muestras de apenas 3 segundos

El ingenio fue creado por Microsoft, que usó una tecnología desarrollada por Meta. Los detalles de su funcionamiento.

Investigadores de la empresa Microsoft dieron a conocer un sistema de inteligencia artificial (IA) capaz de imitar voces con un alto grado de realismo. La tecnología que presentaron, denominada VALL-E, consigue sus resultados con muestras de sólo 3 segundos de duración.

VALL-E: cómo funciona la inteligencia artificial que imita voces: En los últimos años hemos sido testigos del exponencial crecimiento de los sistemas de IA, que día a día consiguen más habilidades. Desde falsificaciones profundas de imágenes y videos, hasta la generación de textos en forma automática. ChatGPT, un avance creado por OpenAI, ha ocupado el centro de la escena durante las últimas semanas por sus asombrosas capacidades.

El campo de acción de VALL-E se acota a las voces. Tal como señalamos, su virtud es imitar tonos de voz partiendo de datos de entrada que no necesariamente deben ser extensos.

El sistema VALL-E se enfoca en imitar las voces: Microsoft no divulgó el código fuente debido a los riesgos asociados a estas tecnologías. (Foto: Archivo)
El sistema VALL-E se enfoca en imitar las voces: Microsoft no divulgó el código fuente debido a los riesgos asociados a estas tecnologías. (Foto: Archivo)

Siguiendo el repaso de Gizmodo, Microsoft se basó en EnCodec, una tecnología de compresión de audio de Meta que usa IA para operar con sonidos con mejor calidad que un CD, sin pérdidas de calidad. Mientras que la exFacebook ideó ese método para mejorar la calidad de las llamadas telefónicas y para achicar la demanda en los servicios de streaming de música; la tecnología tuvo una reinterpretación en VALL-E.

¿La clave? Con poquísimos datos, captar la esencia de una voz y entonces imitarla.

¿Qué avances propone VALL-E de Microsoft?: Los sistemas para producir voces digitales disponibles en la actualidad consiguen resultados muy realistas y naturales. Los asistentes virtuales (Apple Siri, Amazon Alexa, Google Assistant, etcétera) son muestras fieles de ello. Sin embargo, la excelencia alcanzada requiere muchos datos y de alta calidad, que habitualmente se graban con equipos profesionales.

Amén de la curiosidad que genera que una IA que imita voces rápidamente; el carácter distintivo de VALL-E es que su entrenamiento no requiere mucha información, tampoco que ésta sea de gran calidad. Tal como señala la fuente, “es capaz de simular la voz de casi cualquier persona sin pasar semanas en un estudio de grabación”.

El sistema VALL-E no requiere extensas horas de grabación profesional. (Foto: Pixabay/George Milton)
El sistema VALL-E no requiere extensas horas de grabación profesional. (Foto: Pixabay/George Milton)

La herramienta se fue entrenada con datos de dominio público, compuestos por 60.000 horas de habla en inglés, tomados de más de 7.000 personas.

IA que imita voces: Microsoft subraya los riesgos potenciales de estos sistemas:

El método que presentó la firma estadounidense (cuyos resultados pueden consultarse en este paper) por el momento está limitado a imitar voces en inglés. Además, la compañía no divulgó el código fuente y eso implica que no es posible echar mano a sus avances en forma abierta.

Microsoft tomó esa decisión en función de los posibles conflictos asociados a estas tecnologías. “Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico”, explicaron desde Microsoft.

 

Fuente TN

error: Contenido protegido!