Cómo funciona el sistema que reconstruye el rostro desde la voz

(Por Eduardo Aguirre) Una pregunta recurrente tanto en charlas de café como en ámbitos académicos es ¿hasta dónde pueden llegar los desarrollos tecnológicos tales como machine learning e inteligencia artificial? La respuesta es cada vez más difícil de imaginar.

Es que logros propios del cine y la literatura han abandonado el mundo de la ficción y hoy son realidades tangibles.

Uno de los más recientes y asombrosos ejemplos es Speech2Face, el sistema desarrollado por investigadores del MIT (Massachusetts Institute of Technology) que permite reconstruir el rostro de una persona con solo escuchar algunos segundos de su voz, tal como podés ver en el video que acompaña esta nota.

En la publicación en la cual expusieron los resultados de la investigación los seis responsables afirmaron: ¿Cuánto podemos inferir sobre la apariencia de una persona por la forma en que habla?
En este artículo, estudiamos la tarea de reconstruir una imagen facial de una persona a partir de una breve grabación de su voz hablando. Diseñamos y entrenamos una red neuronal profunda para realizar esta tarea utilizando millones de videos naturales de personas que hablan en sitios como YouTube. Durante la capacitación, nuestro modelo aprende sobre los rostros de las personas y sus correlaciones de voz. Esto le permite producir imágenes que capturan varios atributos físicos de los hablantes, como la edad, el género y la etnia. Esto se hace de manera auto-supervisada, utilizando la co-ocurrencia natural de rostros y habla en videos de Internet, sin la necesidad de modelar los atributos explícitamente. Nuestras reconstrucciones, obtenidas directamente del audio, revelan las correlaciones entre caras y voces. Evaluamos y cuantificamos numéricamente cómo, y de qué manera, nuestras reconstrucciones del audio de Speech2Face se asemejan a las verdaderas imágenes faciales de los altavoces.

Desde luego este tipo de experimentos conllevan un dilema ético al cual los investigadores no le rehúyen. “Aunque se trata de una investigación puramente académica, creemos que es importante discutir explícitamente en el documento un conjunto de consideraciones éticas debido a la posible sensibilidad de la información facial”, sostienen al abrir ese capítulo y añaden que el modelo informático no puede recuperar la verdadera identidad de una persona (es decir, una imagen exacta de su rostro). Esto se debe a que está capacitado para capturar características visuales (relacionadas con la edad, el género, etnia, etc.) que son comunes a muchas personas, y solo en los casos en que existe evidencia lo suficientemente sólida como para conectar esas características visuales con los atributos. Como tal, el modelo solo producirá caras de apariencia promedio, con características visuales que se correlacionan con el habla de entrada. No producirá imágenes de individuos específicos.

Los científicos utilizaron en el momento de la prueba para las reconstrucciones de rostros segmentos de voz de entrada de 3 segundos y 6 segundos respectivamente (en ambos casos usamos el mismo modelo). Como se observa en la imagen que acompaña esta nota, con una mayor duración del habla las caras reconstruidas capturan mejor los atributos faciales. Por cierto, en algunos casos, los resultados obtenidos son realmente asombrosos.

¿Qué más podrán lograr estas tecnologías de redes neuronales? No hay límites a la vista.

El paper completo con los resultados de la experiencia está aquí.

Tu opinión enriquece este artículo:

Ingresar con Google

Enfoque

Tirá el viejo currículum y armalo así como te digo (listo para la Inteligencia Artificial)

Buscar trabajo es un desafío cada vez más complejo (y competitivo). La incorporación de la Inteligencia Artificial (IA) y sus algoritmos de aprendizaje automático están transformando la forma en que se procesan los datos, y permiten descubrir y predecir patrones de manera más efectiva y eficiente. Este avance tecnológico es particularmente relevante en la etapa inicial de la búsqueda laboral: la presentación y análisis de currículums. Qué recomiendan desde Consultores de Empresas.

Río Segundo

Profesionales con historia: Mario Luis Galetto, el pediatra sensible que nos remite a la figura de los antiguos médicos rurales

(Por Melina Terraneo) Cada día se lo ve llegar a su consultorio con un pequeño bolso de mano y andar pausado, el esbozo de una sonrisa en el rostro, el gesto amable, como si en ese sencillo acto de entrar a escena y “ponerse el guardapolvo”, parafraseando a Cortázar, en esa tarea de “ablandar el ladrillo” se jugase la vida. Aquí repasamos su historia.

Plus

Nada por aquí, auto por allá: el nuevo truco de Willy Magia para Lencería 3 Hermanos (¡hizo aparecer un auto..! Que luego sortea, claro)

El mago cordobés Willy Magia no para de sorprender: ya convirtió agua en fernet, ya hizo aparecer un campeón del mundo, y cautivó a su público con las destrezas más impresionantes con cubos de rubik, cartas y chisteras. Pero ahora va por más: desafía la promoción (y la publicidad) tradicionales. Hizo aparecer un auto en una conocida lencería de Córdoba. Cómo fue y cómo sigue la promo.

Plus

Personal domina el despliegue de 5G en Córdoba (mirá en el mapa dónde hay cobertura en tu zona)

Así lo asegura el relevamiento de nPerf, que según los datos que los usuarios le van proveyendo mediante su app, muestran cómo Personal lleva la delantera en la adopción del tan ansiado 5G. Mirá.

Y además…

Los une Malagueño (para potenciar la educación): empresas locales se unen para inspirar a jóvenes

Junior Achievement y empresas de Malagueño en su compromiso por la inclusión y la educación emprendedora.

Nota Principal

Crecen las franquicias argentinas en el exterior (la gastronomía y los comercios especializados, pican en punta)

Datos, solo datos: desde el 2015 las franquicias argentinas crecieron un 44% globalmente. En el país, solo en 2023 se incorporaron al menos 157 nuevas marcas franquiciantes al mercado, las redes de puntos de venta crecieron un 8,8% en promedio y el 79% de las marcas relevadas realizó nuevas aperturas, por lo que se estima que a principios de 2024 existen en Argentina 1.783 marcas franquiciantes con un total de 50.100 puntos de venta y que generan aproximadamente 245.000 empleos en forma directa. ¿Qué planean para el resto del año?

Qué está pasando...

¡Qué no te muestren fotos viejas! Así está el césped del Mario Alberto Kempes (un clásico desde Córdoba a 79 países)

Más de 1400 periodistas -420 provenientes del exterior- llegarán a Córdoba para cubrir este partido por cuartos de final de la Copa de la Liga. Las reservas hoteleras ya marcan la ocupación casi total en la ciudad.

Nota Principal

¡Los bancos no dan abasto! Las salas de reuniones y las cajas de seguridad privadas, cada vez más demandadas (en un mes Ingot creció un 30%)

La escasez de salas de reuniones y operaciones de real state en los bancos, así como la limitación de días y horarios, hicieron que las salas de empresas privadas de cajas de seguridad sean un gran diferencial para los clientes. Uno de los ganadores es Ingot, que solamente en un mes, escaló 30% su demanda.

Y además…

¿Te pinta trabajar 6 meses en cada empresa? Unilever, Naranja X y Seeds lanzan un programa de talento único

“Fuera de Serie” es el nombre del programa que lanzaron en conjunto Unilever, Naranja X y Seeds, y que tiene como objetivo desarrollar talento con una duración de un año y medio, en el cual los candidatos trabajarán seis meses en cada una de las compañías y contarán con la posibilidad de elegir cómo y en dónde continuar su carrera profesional.

Enfoque

¡Ustedes nunca ganan! Las camisetas más caras y más baratas de la Liga Profesional (desde $ 38.700 la de Central Córdoba a $ 85.000 la de…)

En el mundo del fútbol argentino, donde la pasión se entrelaza con la tradición y la rivalidad, el precio de una camiseta puede contar una historia propia. Con 28 equipos compitiendo en la Liga Profesional, la gama de precios que abarca desde lo económico hasta lo exclusivo revela mucho más que solo el costo de una prenda deportiva.

Cómo funciona el sistema que reconstruye el rostro desde la voz

Compartir con tus amigos de

Tu opinión enriquece este artículo:

Te puede interesar: