Aprendizaje automático aplicado a problemas de Visión Computacional

Organismo financiante: 
UTN
Fecha de inicio: 
Enero, 2015
Fecha de finalización: 
Diciembre, 2017
Beneficiario: 
Resumen del plan de investigación: 

Como interés central de nuestro laboratorio se encuentra el diseño de nuevos algoritmos de aprendizaje automático
(también conocido como aprendizaje de máquinas (AM)), y la transferencia al medio local y nacional de estas
tecnologías, muy novedosas en el área de la informática, que por su alto poder innovador, van demostrando un
importante impacto en el entorno socio­productivo en la medida que su nivel de avance vá alcanzando la
maduración suficiente. En materia de diseño de nuevos algoritmos, nos hemos especializado en algoritmos de
aprendizaje automático de modelos probabilísticos gráficos (MPG), como son las redes Bayesianas y Markovianas
(también llamadas Markov Random Fields), que operan bajo condiciones de incertidumbre (respecto de la precisión
en las muestras de entrada a los algoritmos). Muchas de estas tecnologías se encuentran lejos de converger a su
grado máximo de madurez, motivando una importante labor científica a nivel mundial en la investigación de nuevos
algoritmos de aprendizaje que permitan modelar dominios mas complejos, i.e., en número de variables, cantidad de
valores por variables, y complejidad de las interacciones entre estas variables; y para condiciones de aprendizaje
mas desafiantes como ser muestras mas pequeñas de datos, o mas ruidosas (inciertas). En pocas palabras,
aprendizaje de modelos con mas variables e interacciones mas complejas entre ellas, bajo condiciones de
ruido/incertidumbre y muestras pequeñas. En pos de avanzar en nuevos algoritmos, aplicar estas tecnologías en el
desarrollo de sistemas innovadores de interés de la industria local y regional nos provee una retroalimentación
positiva en el desarrollo científico. Una aplicación real, con sus complejidades, expone las dificultades de los
algoritmos existentes en resolver el problema. De no existir interesados con necesidades reales, concretas, y
definidas, uno se vería tentado en simplificar la complejidad del problema en alternativas poco realistas, llegando
incluso a limitar el alcance real del problema a resolver con tal de que los algoritmos existentes sean suficientes. %
Los interlocutores interesados, por el contrario, nos guían y exigen definiciones realistas del problemas; guiando
con un sentido práctico y concreto las mejoras propuestas para los algoritmos. En la práctica, nos hemos encontrado
con dificultades para iniciar transferencias con el medio socio­productivo, resultante principalmente de la dificultad
de los interesados en reconocer problemas que puedan ser resueltos con las tecnologías del AM. Para mitigar esta
brecha, nos hemos concentrado recientemente en las tecnologías de Visión Computacional (VC) ya que no solo
permiten achicar la brecha por la sencillez en reconocer sus potenciales aplicaciones, sino que además una gran
mayoría de sus problemáticas requieren de algoritmos de AM. En particular resaltamos uno de los desafíos mas
importantes de la VC, el problema de reconocimiento semántico de una imágen y sus partes. Este problema requiere
encontrar y reconocer patrones que involucran a cientos de miles de pixeles, en variadas escalas. La complejidad
del problema ha resultado en decenas de diferentes técnicas que resuelven parcialmente diferentes sub­problemas.
En el bajo nivel se trabaja en problemas de mapeo de pixel a pixel como ser detección de bordes, extracción de
características visuales, etc.; en el nivel medio se trabaja en mapeos de pixeles a regiones de interés como ser
segmentación o reconstrucción de la estructura 3D a partir de movimiento; y en el nivel mas alto se trabaja en
mapeos de pixeles y regiones a categorías abstractas como ser reconocimiento, clasificación, localización. En mapeos de pixeles y regiones a categorías abstractas como ser reconocimiento, clasificación, localización. En
nuestra investigación nos hemos concentrado en los problemas de segmentación, reconocimiento y clasificación. El
problema de segmentación de la imagen involucra particionar la imagen en varias clases, de acuerdo a
características como color, texturas, y otras características de bajo nivel, asignando a cada pixel una de las etiquetas
de clase de acuerdo a sus características. Los grupos o particiones formadas de esta manera, conllevan una
semántica de bajo nivel, pero no reconocible a alto nivel (e.g., no puede reconocerse que cierta parte de la imagen es
una 'vaca'). Otros involucran reconocimiento de alto nivel (e.g., reconocer que el segmento asignado a la segunda
etiqueta corresponde a una 'vaca'). Estos y varios otros sub­problemas de VC son no solo propicios para el AM, ya
que requieren aprender modelos de clasificación y/o regresión, sino que además son desafiantes por involucrar
cientos de miles de variables y pocos datos de entrada (unas pocas imágenes de ejemplo). Por todo ello, en el
presente proyecto estructuramos los objetivos de producción científica y tecnológica de los próximos 3 años en la
aplicación de Visión Computacional a problemáticas reales de alcance regional y nacional con complejidad
suficiente para demarcar los limites de lo posible de los algoritmos de Aprendizaje de Máquinas existentes; con
énfasis particular en los algoritmos de aprendizaje de Modelos Probabilísticos Gráficos. En un desarrollo previo al
presente proyecto hemos reconocido dos lineas de investigación aplicada que satisfacen este requerimiento: (i)
Segmentación 3D y Aprendizaje de Máquinas para la medición automática del nivel de exposición a la luz solar de
las componentes de una planta de vid., y (ii) Segmentación 3D y Aprendizaje de Máquinas para la medición de
actividad muscular a través de imágenes de piel desnuda. Presentamos a continuación una breve introducción a cada
una de estas problemáticas. TÉCNICAS DE VISIÓN COMPUTACIONAL Y APRENDIZAJE DE MÁQUINAS
PARA LA MEDICIÓN AUTOMÁTICA DEL NIVEL DE EXPOSICIÓN A LA LUZ SOLAR DE LAS
COMPONENTES DE UNA PLANTA DE VID: La vitivinicultura Argentina ocupa un importante lugar en el
contexto mundial y comienza a posicionarse como un exportador altamente competitivo de los tradicionales países
vitivinícolas tales como Francia, España e Italia. El incremento de las exportaciones de vinos, alcanzando un total
de 740 millones de dolares en el 2012, ha hecho que en los últimos 10 años se haya incorporado a los países
exportadores de vinos, y que en el año 2010 el poder ejecutivo nacional allá declarado al vino como la bebida
nacional. Argentina actualmente posee una superficie cultivada con vid de 228.575 ha, (base congelada al cierre de
la cosecha 2010). Por su parte, la provincia de Mendoza posee una superficie cultivada con vid de 160.704 ha, (base
congelada al cierre de la cosecha 2010) representando el 70,31% del total de la superficie cultivada con vid del país,
convirtiéndola en la principal productora de productos vitivinícolas del país. Recientemente además, Mendoza ha
sido incorporada a la red Great Wine Capitals Global Network. Estos datos demuestran la importancia de continuar
mejorando tanto la productividad como la calidad de los frutos producidos. Los factores de mayor impacto en la
productividad de frutos de calidad son la cantidad de nutrientes y agua que recibe la planta, su capacidad foto­
sintética, y la cantidad de luz solar directa recibida por los frutos y yemas (ver por ejemplo [Kliewer et. al. 2005]).
Estas últimas se ubican en la base de cada hoja (en el punto de contacto con la rama), de la cual nacerá un racimo en
la campaña del año siguiente. La productividad de dicho racimo dependerá de la cantidad de luz solar que reciba la
yema. Vemos entonces que la exposición a la luz solar de la planta de vid beneficia a sus organos en los ciclos
vegetativos y reproductivos, lo que puede influir en el equilibrio productivo de la planta: * La exposición de sus
hojas determina la capacidad foto­sintética de la planta, que a su vez afecta su capacidad de producir fotoasimilados
que serán destinados a la producción de hojas, brotes, y a la maduración de los racimos. * La exposición a la luz
solar de los frutos tiene un efecto en la producción de antocianos y otras materias colorantes de los frutos que tiene
una fuerte influencia en la calidad final del mismo. Si se trata del caso de la uva, el color alcanzado en los racimos
determinará en parte el color del vino. * Por último, la exposición a la luz solar de sus yemas determinará la
capacidad de diferenciación hacia estructuras reproductivas (racimos) en el brote del siguiente ciclo. Actualmente,
estas cantidades se obtienen a través de la medición de: * diámetro del tronco para determinar la capacidad de
transportar nutrientes, * características del suelo para determinar la calidad y cantidad de nutrientes, * ubicación
general de los frutos relativos a las hojas, y * el área foliar (AF) para determinar la capacidad foto­sintética
(definida como la suma del área de todas las hojas de la planta, incluyendo las hojas internas que no se encuentran
directamente expuestas a la radiación solar.) La medición de estas cantidades es en la practica costoso y propenso a
errores ya que por lo general aún utilizan métodos manuales de medición (e.g., calibre para medición de diámetro de
tronco, regla para medir altura de las hojas, conteo manual de hojas, etc.). Sin embargo, las tecnologías de la
información y en especial la percepción automática propuesta por recientes avances en el área de Visión
Computacional, sugieren alternativas mas efectivas para la estimación de estas variables. En una investigación
reciente [Perez y Bromberg 2014], hemos propuesto un método práctico y efectivo para la automatización de la
medición del diámetro de troncos de vid, el cual demuestra ser mas preciso al reducir la intervención manual en
diferentes etapas de la medición (e.g., en la medición misma y en la captura de los valores medidos). En el marco del
presente proyecto nos proponemos expandir estos resultados al resto de la planta, proponiendo el diseño e
implementación de un sistema de medición automática del grado de exposición a la luz solar de las diferentes implementación de un sistema de medición automática del grado de exposición a la luz solar de las diferentes
componentes de la planta. En el caso de las hojas se espera que resulte en un método superador al área foliar. Para el
caso de los frutos, se espera no solo poder determinar de manera mas precisa la cantidad de frutos, sino que también
determinar el grado de exposición a la luz solar. En general, esperamos extender las prestaciones del método manual
incluyendo en nuestra medición la ubicación precisa en el espacio 3D de los granos, las hojas, y las yemas.
Alimentado con esta información mas información de localización geográfica, es sencillo visionar un modelo que
permita computar la cantidad integrada de luz solar recibida por cada hoja, cada grano de vid, y cada yema, en cierto
día dado del año; mejorando de esta manera considerablemente la precisión en la estimación de cantidad de luz
solar recibida por ellos a lo largo del añó. Estas información brindarían al agrónomo, de manera precisa y efectiva,
la exposición a la luz solar de cada componente. Esta información es de suma importancia ya que les permite
modelar de manera mas efectiva la incidencia de diferentes regímenes de tratamiento de la planta (e.g., poda, riego)
para maximizar, de manera equilibrada, la productividad y calidad de la planta a lo largo de su vida. Un ejemplo de
esto son los tratamientos de poda de las hojas, que por un lado eliminan potenciales contribuciones foto­sintéticas,
pero a su ves exponen a la luz a las yemas y los frutos. INTRODUCCIÓN AL PROBLEMA DE MEDICIÓN POR
IMÁGENES DE VARIABLES BIOMECÁNICAS: La biomecánica es una disciplina científica que tiene por
objeto el estudio de las estructuras de carácter mecánico, modelos, fenómenos y leyes que sean relevantes al
movimiento y al equilibrio de los seres vivos, fundamentalmente del cuerpo humano. Las variables biomecánicas
mas estudiadas al momento de analizar el movimiento humano son las fuerzas internas y los torques que se
producen en los músculos y articulaciones, respectivamente, durante la ejecución de estos movimientos [Manal and
Buchanan 2004, Pandy and Barr 2004, and Shao and Buchanan 2004]. El análisis de estas variables biomecánicas
permite identificar movimientos perjudiciales para la salud, situaciones de sobre esfuerzo, posiciones in/adecuadas,
trastornos del sistema musculo­esqueletal, movimiento óptimo, entre otras situaciones de alto impacto en la salud y
efectividad del cuerpo durante el desarrollo de diferentes actividades humanas como son la ocupacional [Chaffin
1984, Jonsson et. al. 1982, Mientjes et. al. 1999], la ergonomía [Tichauer et. al. 1978; Kumar et. al. 1999;
Mathiassen et. al. 1995; Kumar et. al. 1996; Van et. al. 1998], y el deporte [Hay 1993, McGinnis 2013, Yeadon et.
al. 1994; Digiovine et. al. 1992; Mero and Komi 1994]; entre otros. La estimación de las fuerzas internas de los
músculos y los torques soportados por las articulaciones no se realiza por medio de mediciones directas, sino a
través de una combinación de medición directa de la actividad muscular y variables cinemáticas (posiciones de las
articulaciones en cada instante de tiempo), utilizando modelos dinámicos complejos. En años recientes se ha
alcanzado un grado de madurez importante en la medición automática por imágenes de las variables cinemáticas
gracias a la aparición en el mercado de sensores de profundidad económicos como son el Microsoft Kinect, Asus
Xtion, PrimeSense Carmine, entre otros. Con estos dispositivos ha sido posible la medición precisa y dinámica de la
posición de las articulaciones [Dutta 2012]. Sin embargo, no existe aún tecnología convincente para una estimación
precisa de la actividad muscular a través de imágenes. Actualmente, para estimar el nivel de actividad muscular que
ejerce un músculo normalmente se usa un dispositivo costoso (aprox. US $4000) llamado electromiógrafo (EMG)
que mide el nivel de activación muscular de forma eléctrica. La medición con este dispositivo requiere adhesión de
electrodos cableados al cuerpo o introducción de agujas en los músculos. Esto lo transforma en una técnica de
medición no solo intrusiva, sino que también de aplicabilidad limitada por las limitaciones al movimiento propias
del cableado.