Los sistemas de visión son fundamentales en ta-reas de búsqueda y rescate (SAR), principalmente en misiones cruciales como la detección de posibles víctimas en entornos de desastre. El uso de imágenes de los espectros visible (RGB) e infrarrojo térmico (TIR) para la detección de objetos son complementarias, y permiten la detección en condiciones de visibilidad limitadas. El presente trabajo analiza cómo las técnicas de aprendizaje profundo basadas en redes neuronales convolucionales (CNN) pueden aplicarse a ambas modalida-des para la detección de partes del cuerpo en esce-narios de catástrofe. Con este fin, se ha empleado la red YOLOv5 en ambos espectros utilizando el conjunto público de datos UMA-SAR dataset. Finalmente, se evalúan sus resultados en distintas condiciones de visibilidad.