En este artí culo describimos y analizamos PQ-learning, un
algoritmo para problemas de aprendizaje por refuerzo multiobjetivo. El
algoritmo es una extensi ón de Q-learning, un algoritmo para problemas
de aprendizaje por refuerzo escalares. Al contrario que otros algoritmos,
PQ-learning no requiere informaci ón de preferencias sobre los objetivos,
es aplicable a problemas con fronteras de Pareto no convexas y permite
recuperar a partir de los Q-valores las secuencias de acci ón correspondientes a diferentes polí ticas Pareto- óptimas. PQ-learning ha sido aplicado
a dos problemas pertenecientes a un banco de pruebas propuesto en la
literatura de aprendizaje por refuerzo multiobjetivo