Las grabaciones de la vida de un bebé de un año entrenan a una IA para aprender palabras

Desde su nacimiento, los bebés comienzan a recibir estímulos visuales y auditivos, esenciales para aprender algo imprescindible en sus vidas: el lenguaje. Entre los seis y nueve meses, comienzan a hablar, asocian sonidos con objetos y conceptos del mundo real. Al llegar a los dos años, ya suelen contar con un vocabulario de aproximadamente 300 palabras. Pero, ¿cómo se desarrolla este proceso de aprendizaje? Un equipo de investigadores de la Universidad de Nueva York estudió grabaciones de la vida cotidiana de un niño durante su primer año de vida para encontrar la respuesta. El experimento no solo confirmó la conexión entre la representación visual y lingüística —es decir, lo que se ve y la palabra que le corresponde—, sino que también contribuyó al desarrollo de un modelo de inteligencia artificial (IA), que ha logrado reconocer distintos objetos de manera similar a como lo hacen los niños.

“Los grandes sistemas de IA se entrenan y funcionan gracias a una cantidad de datos astronómica. Hablamos de miles de millones de palabras para poder desarrollar un sistema de lenguaje”, explica Wai Keen Vong, doctor en psicología y ciencia computacional, que ha coordinado del estudio que se ha publicado este jueves en la revista Science. “Sin embargo, los humanos necesitan solo unos pocos miles de palabras para alcanzar un sistema de comunicación eficiente”, añade. De este contraste, nació el interés en investigar si una IA sería capaz de aprender a hablar de la misma forma que los niños: observando su entorno, escuchando a las personas que los rodean y conectando puntos entre lo que ven y oyen.

La adquisición temprana del lenguaje es un tema ampliamente debatido y por el cual se han propuesto varias hipótesis. Tradicionalmente, este tipo de estudios se ha llevado a cabo en entornos controlados de laboratorio, lo que ha dado como resultado descubrimientos que a menudo no se extrapolan eficazmente a contextos más dinámicos y variados del mundo real. “La novedad de este análisis reside en el hecho de que pudimos trabajar con datos de primera mano, derivados de una situación real de aprendizaje”, recalca Vong.

Con este objetivo, el equipo de Vong analizó 61 horas de la vida de Sam, un niño australiano que durante un año y medio —desde los seis a los 25 meses de edad— llevó un casco con una cámara que grababa las interacciones que tenía con sus padres y abuelos en el día a día. En realidad, grabó solamente el 1% del tiempo que pasó despierto durante la duración del experimento. Aun así, se han logrado cientos de imágenes que reproducen exactamente lo que el niño estaba viendo, acompañadas por las expresiones lingüísticas de sus familiares, que le explicaban la naturaleza de los objetos que lo rodeaban. “Por ejemplo, durante la hora de la comida, la cámara en su cabeza grababa la imagen de una cuchara, al mismo tiempo que su madre le preguntaba algo relacionado con ese utensilio. Y así, con decenas de objetos cotidianos”, explica Vong.

La conexión entre estos dos medios casi nunca es obvia. De hecho, el investigador reconoce que parte del desafío para los bebés es entender exactamente qué palabra se asocia al objeto con el que están interactuando. “La mayoría del tiempo, los padres no están etiquetando cada objeto. Por cada pelota que Sam estaba mirando, sus padres no le decían ‘esta es una pelota’, ‘mira la pelota’. Escuchaba las palabras en un contexto natural, y la dificultad es justamente averiguar, dentro de una oración más o menos larga, cuál es la palabra que corresponde al objeto redondo con el que estaba jugando”, señala Vong.

Entrenar una IA como un bebé

Tras observar el comportamiento del niño, los investigadores pudieron confirmar que aprendía el significado de las palabras conectando el estímulo visual —es decir, la imagen que se le presentaba— con la respuesta de sus familiares, que repetían la palabra correspondiente. Con estos resultados, han pasado a la segunda fase del experimento: verificar si una IA sería capaz de aprender a reconocer los objetos de la misma forma que lo hizo Sam.

El modelo de inteligencia artificial, llamado CVCL (Child’s View for Contrastive Learning, aprendizaje contrastivo desde la perspectiva del niño), ha sido entrenado con 64 categorías visuales —utensilios, juguetes, animales, entre otras— y la transcripción de lo que Sam estaba escuchando mientras miraba a estos objetos. Una vez creada esta base de datos, los investigadores han empezado a hacer pruebas para comprobar si la IA era capaz de identificar las imágenes. Según Vong, el modelo —con información sensorial limitada y mecanismos de aprendizaje relativamente genéricos— proporciona una base computacional para investigar cómo los niños adquieren sus primeras palabras y cómo esas palabras pueden conectarse al mundo visual.

“Encontramos que CVCL puede aprender a hacer conexiones entre imágenes y texto a partir de fragmentos limitados de la experiencia de un solo niño”, destacan los autores en el estudio. En algunos casos, los objetos figuraban sobre un fondo blanco, mientras que en otros en un entorno con más estímulos. De hecho, la precisión de clasificación del modelo fue del 61.6%, y se mantuvo alta incluso cuando se insertaron en el sistema imágenes diferentes a las grabaciones de Sam, con las cuales la IA no había sido entrenada. “Los resultados confirman nuestra hipótesis de que con solamente dos impulsos, que son lo que el niño ve y lo que oye, es posible alcanzar y acelerar este tipo de aprendizaje”, destaca Vong.

Estudiar cómo nace el habla

Antonio Rodríguez Fornells, investigador en el Instituto de Neurociencias de la Universidad de Barcelona, señala el aspecto novedoso del estudio, que abre paso para entender, mediante simulaciones computacionales, cuáles son los mecanismos de aprendizaje mínimos que utilizan los niños para afrontar el reto de aprender un lenguaje: “Los estudios previos en bebés en psicología del desarrollo aportan información clave con experimentos muy novedosos, pero la falta de estudios de neurociencia o neuroimagen en los mismos (por la dificultad de aplicar estas técnicas en bebés) no permite que se avance tanto en la neurociencia como para esclarecer los mecanismos cerebrales que sustentan estos procesos de adquisición del lenguaje”, explica este neurocientífico.

Además, reconoce que las simulaciones que se plantean en el artículo respaldan ciertas teorías del lenguaje propuestas anteriormente. “Entre ellas, que simplemente con mecanismos simples de aprendizaje asociativo (que permiten vincular imágenes y palabras) en un entorno de aprendizaje natural (como el que experimentan los niños cuando nacen y en los primeros meses de su vida) es suficiente para poder aprender estas relaciones y generalizar el contenido del significado”, añade Rodríguez Fornells.

Aun así, el estudio presenta algunas limitaciones. El modelo CVCL se entrenó con grabaciones de una sola cámara montada en la cabeza de un solo niño, y aprendió a través de las transcripciones de voz en lugar de voz directa, lo que omite matices importantes como la entonación y el énfasis. “También hay que recordar que el aprendizaje del modelo fue pasivo, basado en grabaciones, sin interacción activa con el entorno, lo cual es diferente a cómo los niños aprenden en entornos reales”, reconocen los autores de la investigación.

Puedes seguir a MATERIA en Facebook, X e Instagram, o apuntarte aquí para recibir nuestra newsletter semanal.