parentesis.com/

Inteligencia artificial identifica objetos en una imagen cuando se los describen


El modelo subraya en tiempo real las regiones relevantes de la imagen descrita a través de un audio.

por: Juan Martín M. Juan Martín M.

portada de nota

Ingenieros en computación del MIT desarrollaron un sistema de inteligencia artificial que aprende a identificar objetos dentro de una imagen, al darle sólo descripciones habladas de las mismas.

 

¿Cómo funciona? El modelo subrayará en tiempo real las regiones relevantes de la imagen descrita a través de un audio.

 

A diferencia de las tecnologías actuales de reconocimiento de voz, el modelo no requiere transcripciones manuales y anotaciones de los ejemplos con los cuales se entrenó. En lugar de eso, "aprende" las palabras directamente de los audios y objetos en las imágenes, y las asocia entre sí.

 

 

Actualmente, el modelo relaciona sólo un número limitado de palabras y tipos de objetos, pero los investigadores creen que su técnica ahorrará miles de horas de trabajo manual y abrirá nuevas posibilidades en reconocimiento de voz e imagen. 

 

En un gráfico que representa a una niña rubia con un vestido azul, así como a un faro y un tejado rojo, el modelo pudo asociar qué pixeles correspondían a las palabras "niña", "cabello rubio", "ojos azules", "vestido azul", "faro blanco" y "techo rojo".  

 

Se cree que desarrollos como este podrían emplearse en el aprendizaje de traducciones, sin la necesidad de un anotador bilingüe. Esto podría lograrse haciendo que el sistema reconociera el mismo objeto en diferentes idiomas. 

 

De los aproximadamente 7 mil lenguajes existentes, sólo hay datos suficientes para que sistemas inteligentes reconozcan el discurso de unos 100. Así, esta investigación es de suma importancia. 

Comenta:

separador de nota