Skip to content Skip to sidebar Skip to footer

VALL-E, la impresionante nueva IA de Microsoft que imita tu voz en 3 segundos

Puede escuchar tu voz durante tres segundos y generar todo un texto con la misma naturalidad y entonación que tienes y con la misma emoción. Si creías que lo habías visto todo, con ChatGPT -creada por la startup OpenAI, cuyo principal inversor es Microsoft-, VALL-E empezó a darse a conocer desde este año como la inteligencia artificial más reciente del gigante tecnológico.

Para este proyecto, estando en pleno desarrollo de su propia tecnología, Microsoft se basó en un modelo de lenguaje Text-to-speech (TTS, por sus siglas en inglés), capaz de sintetizar el texto para transformarlo en voz.

“Específicamente, entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior”, explican los creadores del prototipo en un sitio web que presenta el proyecto en modo ‘demo’ (https://valle-demo.github.io/ ) y cuya novedad ha sido ya difundida por distintos y reconocidos medios de comunicación digitales.

En el mencionado portal, los ejemplos que se muestran son asombrosos, detallando cuál ha sido la entrada de audio que se ha tomado como base, los pasos intermedios y el resultado final de VALL-E. El prototipo no solo es capaz de imitar la voz, sino el ritmo y el tono original con el que se ha grabado la entrada de voz.

Tiene que ver: Aplicaciones de inteligencia artificial que tienes que probar

Y es que esta máquina está preparada a conciencia. Durante la etapa previa, se introdujeron los datos de entrenamiento de TTS a sesenta mil horas de habla en inglés. Además, lo que vuelve particularmente diferente a VALL-E de su antecesor, según sus desarrolladores, es su capacidad de aprendizaje, y que puede analizar la voz de una persona para luego interpretar cómo sonaría con frases distintas mientras conserva la entonación y las emociones del hablante.

De igual manera, VALL-E está siendo desarrollada para funcionar con “otros modelos generativos de IA”, como es GPT-3. En un futuro, no muy lejano, esta característica ofrece posibilidades de integrar VALL-E en otras tecnologías como ChatGPT, la cual está siendo testeada para ser incorporada en Bing este año, así como Microsoft se encuentra trabajando para agregarlo a la suite de Office.

AUTOR:
GUSTAVO NEGRÓN