En esta tesis exploramos varias aplicaciones prácticas de la visión por computador, con un hilo común: el uso de técnicas basadas en aprendizaje, en particular las redes neuronales convolucionales.
Comenzamos explorando la tarea de calibración de cámara con una única imagen, que consiste en la predicción de los parámetros de calibración de una cámara a partir de una única imagen: Tanto los intrínsecos, que modelan la proyección de la luz sobre el sensor de la cámara como los extrínsecos, que describen la posición y orientación de la cámara con respecto a un eje de coordenadas del entorno.
A continuación, nos enfrentamos a los problemas de reconocimiento visual de lugares y de localización visual en tres estudios diferenciados.
El reconocimiento visual de lugares consiste en reconocer de forma automática un lugar previamente visitado, utilizando únicamente la apariencia visual, a pesar de posibles cambios en la apariencia de las imágenes (ya sea por cambios de iluminación, el clima o la estación del año). Juega un papel fundamental en la robótica móvil y en aplicaciones de conducción autónoma. Proponemos la utilización de un algoritmo basado en aprendizaje: Entrenamos una red neuronal convolucional para producir una representación de imágenes compacta y holística (representando la totalidad de la imagen, en lugar puntos característicos). El algoritmo se entrena con juegos de imágenes obtenidas con apariencias diferentes (en distintas épocas del año, con distintos niveles de iluminación, etc), con el objetivo de obtener representaciones invariantes a dichos cambios de apariencia.