Inteligencia artificial parlante de Microsoft es capaz de imitar una voz al escucharla solo 3 segundos

Ingenieros de Microsoft desarrollaron ‘VALL-E’, una nueva herramienta de inteligencia artificial (IA), que puede simular la voz de una persona tras escucharla solo 3 segundos.

La aplicación se basa en una tecnología de compresión de audio denominada ‘EnCodec’, que ha sido desarrollada por Meta (calificada en Rusia como organización extremista), informaron sus autores en una publicación pendiente de revisión por pares.

Microsoft aprovechó la tecnología EnCodec como una forma de hacer que la síntesis de texto a voz (TTS, por sus siglas en inglés) suene realista, basándose en una muestra de fuente muy limitada. Durante la etapa de entrenamiento de la IA emplearon 60.000 horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes.

Ventajas

Según sus creadores, VALL-E muestra capacidades de aprendizaje en contexto y se puede utilizar para sintetizar una voz personalizada de alta calidad con solo una grabación registrada de 3 segundos. Los resultados del experimento muestran que VALL-E supera significativamente a los sistemas TTS de cero disparos (no entrenados con la voz que simulan) de última generación, en términos de naturalidad del habla y similitud del hablante. Además, sostienen que VALL-E podría preservar la emoción del hablante y el entorno acústico en el mensaje de voz sintetizado a partir del texto.

Deficiencias

A pesar de sus notables logros, los investigadores de Microsoft llamaron la atención sobre algunos problemas de la herramienta. En particular, criticaron que algunas palabras pueden no ser claras, perderse o duplicarse en la síntesis del habla. Otro aspecto señalado fue que aún no puede cubrir la voz de todos, especialmente la de los hablantes con acento. También plantearon que la diversidad de estilos de habla no es suficiente, ya que LibriLight (la base de datos que emplearon para el entrenamiento) es un conjunto de datos de audiolibros, en el que la mayoría de las expresiones están en estilo de lectura.

¿Qué efectos tendrán para el mundo las nuevas reglas sin precedentes de China sobre los 'deepfake'?

Riesgos

Los ingenieros de Microsoft alertaron de que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, lo que puede conllevar riesgos potenciales en el uso indebido del modelo. Un ejemplo de esto podría ser la falsificación de la identificación de voz o hacerse pasar por un hablante específico para producir un ‘deepfake’.

Los ‘deepfake’, o falsificaciones profundas, son archivos de video, imagen o voz creados mediante un programa de inteligencia artificial para suplantar de forma muy realista la imagen de los protagonistas de los contenidos por los de otras personas.

Fuente RT

Inteligencia artificial parlante de Microsoft es capaz de imitar una voz al escucharla solo 3 segundos

Ventajas

Deficiencias

Riesgos

Más Noticias

Concentración masiva de dirigentes y simpatizantes PLD en solidaridad compañeros detenidos en Palacio de Justicia

Niño cautiva las redes sociales tras cantarle una canción de Coldplay a su perrito

El conductor de una camioneta aplasta conos colocados por Digesett sobre Puente Duarte y salirse de carril

Lluvias produjeron hundimiento de pavimento en la carretera Sánchez-Las Terrenas, en Samaná

Cámara de Representantes planteará al presidente de EEUU posible aumento tope deuda

"De aquí me quitan muerta": mujer se opone a desalojo de negocio en acera de Tamboril

N Digital Multimedia

Calle San Martín de Porres No. 10

teléfono 809-549-5656

contáctanos [email protected]

Portada

Minerd rechaza docentes cesen docencia injustificadamente y violen pacto por la educación

Abel presenta programa de gobierno con enfoque en seguridad, deuda cero y canasta básica accesible

Sociedad Dominicana de Cirugía dice sentencia contra cirujano crea un "precedente erróneo"

Actualidad

“¡Asesinos, asesinos!”... Así grita doctor José Pérez Vidal a médicos actuaron con negligencia en Plaza de la Salud

Sociedad Dominicana de Cirugía dice sentencia contra cirujano crea un "precedente erróneo"

Dos nuevos detenidos por su implicación en la muerte de profesora en Hato Mayor

Nuria: Investigación Periodística

Foto-crónica: Con temas de interés a través del lente de Franklin Guerrero.

El clan Rubiales y sus andanzas en RD

El Doctor Fadul y su “cura” del autismo

N Digital Multimedia

Calle San Martín de Porres No. 10

teléfono 809-549-5656

contáctanos [email protected]

Inteligencia artificial parlante de Microsoft es capaz de imitar una voz al escucharla solo 3 segundos

Ventajas

Deficiencias

Riesgos

Noticas de Interés

Más Noticias

Subscríbete al ABC del Día

N Digital Multimedia

Calle San Martín de Porres No. 10

teléfono 809-549-5656

contáctanos [email protected]

N Digital Multimedia

Calle San Martín de Porres No. 10

teléfono 809-549-5656

contáctanos [email protected]