En las últimas décadas, la automatización ha transformado una gran variedad de sectores industriales, reemplazando procesos manuales por sistemas automáticos, desde la fabricación hasta los servicios. Con ello mejora la eficiencia, la precisión y la seguridad, reduciendo errores humanos. Esta tendencia es notable en sectores tecnológicos donde la robótica, combinada con el aprendizaje máquina, revoluciona las capacidades de las máquinas para llevar a cabo tareas complejas.
En automoción atestiguan esto desde sistemas de asistencia a la conducción hasta los primeros desarrollos de vehículos completamente autónomos, mejorando la experiencia del conductor y aumentando la seguridad vial, yendo hacia vehículos que sustituyen de manera progresiva la necesidad de intervención humana.
En este contexto, los vehículos autónomos, aplicación de la automatización en el sector automovilístico, van equipados con sistemas de percepción que les permiten identificar el entorno, detectar obstáculos, tomar decisiones y navegar sin intervención humana. Hacen uso de una amplia gama de sensores que capturan datos del entorno en tiempo real, como sensores LiDAR (Light Detection and Ranging), cámaras RGB, radar, GPS o IMU (Inertial Measure Unit), junto a otros dispositivos de percepción.
Uno de los desafíos que presentan los vehículos autónomos es la integración eficaz de los datos de estos sensores. La fusión multi-modal, es decir, la combinación de datos de todos ellos, es de gran utilidad para representar el entorno de forma fiel y precisa. Por un lado, LiDAR proporciona información sobre la forma de los objetos y su distancia al sensor, mientras que las cámaras capturan detalles de los objetos.
En este TFM se propone realizar una fusión multimodal de los datos de un sensor LiDAR y cámaras RGB, para aprovechar las ventajas que ofrece cada sensor por separado y superar sus limitaciones individuales, mejorando así la robustez del sistema de percepción del vehículo.