El uso de imágenes de los espectros visible (RGB)
e infrarrojo térmico (TIR) para la detección de
objetos puede resultar crucial en aplicaciones donde
las condiciones de visibilidad están limitadas,
como la robótica para búsqueda y rescate en catástrofes.
Para ello resulta beneficioso analizar cómo
las técnicas de aprendizaje profundo basadas en
redes neuronales convolucionales (CNN) pueden
aplicarse a ambas modalidades. En este artículo se
analizan diferentes configuraciones y parámetros
para el entrenamiento de CNN tanto para imágenes
térmicas como para imágenes equivalentes del
espectro visible. En concreto, se aborda el problema
del sobre-entrenamiento para determinar una
configuración eficaz de técnicas de aumento de datos
y parada temprana. El caso de estudio se ha
realizado con la red de código abierto YOLOv3,
pre-entrenada con el dataset RGB COCO y optimizada
(o re-entrenada) con el conjunto público
de datos UMA-SAR dataset, que incluye pares de
imágenes RGB y TIR obtenidas en ejercicios realistas
de rescate.