Según un artículo publicado el 21 de febrero de 2007 en Technology Review, un grupo de neurocientíficos del MIT ha desarrollado un modelo informático que imita el sistema de visión humano para detectar y reconocer con precisión objetos como coches y motocicletas, en una calle concurrida. Según, Thomas Serre, neurocientífico del MIT, este tipo de sistemas de visión se podrían utilizar pronto en sistemas de vigilancia o en sensores inteligentes que avisen a los conductores sobre la presencia de peatones u otros objetos.
Durante años, los investigadores han intentado imitar los sistemas de visión biológicos, debido a su perfección. Pero enseñar a un ordenador a clasificar objetos ha resultado ser más complicado de lo que parecía en un principio, señala Serre, quien realizó el trabajo con Tomaso Poggio. En primer lugar, para reconocer un tipo concreto de objeto el ordenador necesita una plantilla o representación computacional específica de ese objeto concreto, que es la que permite al ordenador distinguir, por ejemplo, un coche de los objetos que no son coches. Sin embargo, la plantilla ha de ser lo suficientemente flexible como para incluir a todos los tipos distintos de coches en diferentes ángulos y posiciones y bajo distintas condiciones de luz.
El mejor modo para lograr esto, es entrenar un algoritmo de aprendizaje con una serie de imágenes para que extraiga las características que tienen en común. Serre y Poggio creen que el sistema de visión humano sigue un enfoque similar, pero que depende de una jerarquía de capas sucesivas en la corteza visual. Las primeras capas de la corteza detectarían, así, las características más simples de un objeto y las últimas combinarían esa información para formar nuestra percepción del objeto como un todo.
Para comprobar su teoría, Serre y Poggio trabajaron con Stanley Bileschi, del MIT, y Lior Wolf, de la Universidad de Tel Aviv, Israel, en la creación de un modelo informático con 10 millones de unidades computacionales, diseñadas para comportarse como grupos de neuronas de la corteza visual. Al igual que en la corteza visual, las unidades están divididas en capas.
Primero, las unidades más simples extraen características rudimentarias de la escena (por ejemplo, perfiles orientados) analizando grupos muy pequeños de píxeles. Luego, las unidades más complejas analizan porciones mayores de la imagen y reconocen características relacionadas con el tamaño o la posición de los objetos. Con cada capa sucesiva se extraen características cada vez más complejas, como por ejemplo, la distancia que hay entre dos partes de un objeto o los distintos ángulos de orientación de dichas partes. Esto permite reconocer el mismo objeto desde distintos ángulos.
Cuando probaron el sistema, sus resultados fueron muy buenos, pudiendo competir con los de los mejores sistemas existentes en el mercado. Además, debido a su capacidad de aprendizaje, cuantas más imágenes analiza, más precisos son sus resultados.
De momento, el sistema solo ha sido diseñado para analizar imágenes estáticas. Sin embargo, según Serre, el proceso es similar al del sistema de visión humano, en donde una parte del sistema se encarga de las formas y otra del movimiento. El equipo está trabajando ahora en la incorporación de un sistema paralelo que trabaje con vídeos.
Fuente: Technology Review