Cómo funciona el sistema que reconstruye el rostro desde la voz

(Por Eduardo Aguirre) Una pregunta recurrente tanto en charlas de café como en ámbitos académicos es ¿hasta dónde pueden llegar los desarrollos tecnológicos tales como machine learning e inteligencia artificial? La respuesta es cada vez más difícil de imaginar. 

Image description
Image description

Es que logros propios del cine y la literatura han abandonado el mundo de la ficción y hoy son realidades tangibles.

Uno de los más recientes y asombrosos ejemplos es Speech2Face, el sistema desarrollado por investigadores del MIT (Massachusetts Institute of Technology) que permite reconstruir el rostro de una persona con solo escuchar algunos segundos de su voz, tal como podés ver en el video que acompaña esta nota.

En la publicación en la cual expusieron los resultados de la investigación los seis responsables afirmaron: ¿Cuánto podemos inferir sobre la apariencia de una persona por la forma en que habla?
En este artículo, estudiamos la tarea de reconstruir una imagen facial de una persona a partir de una breve grabación de su voz hablando. Diseñamos y entrenamos una red neuronal profunda para realizar esta tarea utilizando millones de videos naturales de personas que hablan en sitios como YouTube. Durante la capacitación, nuestro modelo aprende sobre los rostros de las personas y sus correlaciones de voz. Esto le permite producir imágenes que capturan varios atributos físicos de los hablantes, como la edad, el género y la etnia. Esto se hace de manera auto-supervisada, utilizando la co-ocurrencia natural de rostros y habla en videos de Internet, sin la necesidad de modelar los atributos explícitamente. Nuestras reconstrucciones, obtenidas directamente del audio, revelan las correlaciones entre caras y voces. Evaluamos y cuantificamos numéricamente cómo, y de qué manera, nuestras reconstrucciones del audio de Speech2Face se asemejan a las verdaderas imágenes faciales de los altavoces.

Desde luego este tipo de experimentos conllevan un dilema ético al cual los investigadores no le rehúyen. “Aunque se trata de una investigación puramente académica, creemos que es importante discutir explícitamente en el documento un conjunto de consideraciones éticas debido a la posible sensibilidad de la información facial”, sostienen al abrir ese capítulo y añaden que el modelo informático no puede recuperar la verdadera identidad de una persona (es decir, una imagen exacta de su rostro). Esto se debe a que está capacitado para capturar características visuales (relacionadas con la edad, el género, etnia, etc.) que son comunes a muchas personas, y solo en los casos en que existe evidencia lo suficientemente sólida como para conectar esas características visuales con los atributos. Como tal, el modelo solo producirá caras de apariencia promedio, con características visuales que se correlacionan con el habla de entrada. No producirá imágenes de individuos específicos.

Los científicos utilizaron en el momento de la prueba para las reconstrucciones de rostros segmentos de voz de entrada de 3 segundos y 6 segundos respectivamente (en ambos casos usamos el mismo modelo). Como se observa en la imagen que acompaña esta nota, con una mayor duración del habla las caras reconstruidas capturan mejor los atributos faciales. Por cierto, en algunos casos, los resultados obtenidos son realmente asombrosos.

¿Qué más podrán lograr estas tecnologías de redes neuronales? No hay límites a la vista.

El paper completo con los resultados de la experiencia está aquí.

Tu opinión enriquece este artículo:

Tirá el viejo currículum y armalo así como te digo (listo para la Inteligencia Artificial)

Buscar trabajo es un desafío cada vez más complejo (y competitivo). La incorporación de la Inteligencia Artificial (IA) y sus algoritmos de aprendizaje automático están transformando la forma en que se procesan los datos, y permiten descubrir y predecir patrones de manera más efectiva y eficiente. Este avance tecnológico es particularmente relevante en la etapa inicial de la búsqueda laboral: la presentación y análisis de currículums. Qué recomiendan desde Consultores de Empresas.

Eneldo, el mercadito natural que aterrizó en la Villa (es el primero de Córdoba y ya son 33 las franquicias en todo el país)

Si te gusta la onda fitness, te cuidás en las comidas o simplemente te gusta saber de dónde provienen los alimentos que consumís, tenés que conocer este local. Es un “supermercadito saludable”, ubicado en Río de Janeiro 15 (en el Complejo Cuadra Uno, Villa Allende). donde encontrás todo tipo de alimentos en su versión más sana y pura posible. ¿Qué hay en Eneldo? Más de 4.000 productos, desde frutos secos, harinas y legumbres, hasta fideos y hamburguesas. Como bonus track, todo tipo de cosméticos naturales.

¿Tus zapatillas ya no dan más? La Clínica de Sneakers les da una segunda vida con tres pasos (reparación, limpieza y renovación)

(Por Juliana Pino) Celeste Sosa convirtió su Clínica de Sneakers en un refugio para las personas que tienen apego emocional con sus calzados. Con habilidades únicas y una atención personalizada, restaura todo tipo de calzados. Con su deseo de intervenir las zapatillas de la Mona Jiménez, su clínica es el destino ideal para los amantes de las zapatillas.

Una bolsa de cemento por favor, ¡pero blanco!: Holcim presenta su nuevo producto (pensado para trabajos decorativos y artísticos)

Holcim continúa innovando en el mundo de la construcción, y presenta “Blanco”, su nuevo cemento destinado a trabajos decorativos y artísticos, ofreciendo a los profesionales de la construcción una nueva herramienta para dar vida a sus proyectos de una manera creativa. Esta nueva variedad de soluciones cementicias cuenta con más del 80% de blancura logrando un gran aspecto estético y visual. 

Edisur, la desarrollista que no descansa: ya vendió el 30% de Las Tipas en Manantiales II (cuáles son los proyectos que siguen)

(Por Soledad Huespe) En 2023 vivían en los 40 desarrollos de Manantiales, “la ciudad” que construye Edisur en la zona sur de Córdoba, unas 12.500 personas. Hoy ya son 15.000. “Y la proyección es exponencial”, dice Gonzalo Parga, director de la empresa. En 20 años más, cuando ya hayan desarrollado todas esas tierras, serán unos 120.000 vecinos. “Casi como la ciudad de Villa María”, apuntan. Impresiona, ¿no? Y los números son tan vertiginosos que acompañan esa tendencia. A menos de 6 meses de su lanzamiento, Las Tipas acumula un 30% de comercialización. 

Yo me quiero casar, ¿y usted?: Pueblo Nativo ofrece una experiencia completa para bodas (y adelanta las tendencias 2024)

(Por Diana Lorenzatti) Córdoba se posiciona cada vez más como el destino elegido por muchas parejas que quieren celebrar su casamiento, combinando lo “experimental” con lo tradicional. Pueblo Nativo Resort, un lujoso hotel ubicado en el corazón de Villa Giardino, busca potenciarse como el lugar ideal para este tipo de ceremonias al ofrecer una propuesta amplia. En un evento exclusivo dieron a conocer las tendencias y en esta nota te contamos todo.