Inicio » Deepfake » Microsoft: la nueva frontera en generación de voz y sus riesgos

Microsoft: la nueva frontera en generación de voz y sus riesgos

Un avance revolucionario que plantea serias preocupaciones éticas y de seguridad. Microsoft decidió contener la tecnología para aprender a controlarla y que no se vuelva una amenaza.

Microsoft ha desarrollado VALL-E 2, un generador de voz artificial tan avanzado que podría confundirse con una voz humana real, utilizando solo unos pocos segundos de audio. Sin embargo, debido a los potenciales riesgos de su mal uso, la compañía ha decidido no lanzarlo al público.

VALL-E 2, según sus creadores, alcanza «la paridad humana» en la síntesis de voz, produciendo discursos naturales y precisos que igualan o superan la calidad de la voz humana.

Esto se logra gracias a innovaciones como «Repetition Aware Sampling» y «Grouped Code Modeling,» que mejoran la fluidez y eficiencia del discurso generado.

Los investigadores de Microsoft evaluaron VALL-E 2 utilizando las bibliotecas de audio LibriSpeech y VCTK, y emplearon el marco de evaluación ELLA-V para medir la precisión y calidad del discurso generado.

Los resultados mostraron que VALL-E 2 supera a los sistemas anteriores en términos de robustez, naturalidad y similitud con el hablante original.

A pesar de estos avances, Microsoft ha decidido mantener VALL-E 2 como un proyecto de investigación debido a preocupaciones sobre su posible uso indebido, como la suplantación de identidad y la creación de deepfakes.

Esta decisión se alinea con la tendencia de otras compañías de IA, como OpenAI, que también han restringido el acceso a sus tecnologías de voz por razones de seguridad.

En un post en su blog, los investigadores de Microsoft explicaron: «VALL-E 2 es puramente un proyecto de investigación. Actualmente, no tenemos planes de incorporarlo en un producto o expandir su acceso al público.»

Sin embargo, reconocen el potencial de esta tecnología para aplicaciones futuras en educación, entretenimiento, contenido autogenerado, y sistemas de respuesta de voz interactivos, siempre y cuando se implemente un protocolo que asegure la aprobación del uso de la voz por parte del hablante.

Este avance en la tecnología de generación de voz plantea importantes debates sobre la ética y la seguridad en el desarrollo de la inteligencia artificial.

La capacidad de generar voces indistinguibles de las humanas abre un mundo de posibilidades, pero también de riesgos, subrayando la necesidad de un enfoque responsable y regulado en el despliegue de estas tecnologías.

En resumen, VALL-E 2 representa un hito en la generación de voz por IA, alcanzando niveles de calidad y precisión nunca antes vistos. Sin embargo, la decisión de Microsoft de no lanzarlo al mercado refleja una conciencia sobre los desafíos éticos y de seguridad que acompañan a estos avances tecnológicos.

La comunidad tecnológica y la sociedad en general deben considerar cuidadosamente estos aspectos mientras navegamos hacia un futuro donde la línea entre lo humano y lo artificial se vuelve cada vez más difusa.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com