Les systèmes multi-agents doivent lever conjointement les ambiguïtés — potentiellement conflictuelles — entre objectifs et critères. Trouver des stratégies (approximativement) optimales pour les systèmes multi-agents nécessite la résolution de problèmes multi-objectifs, souvent formulés sous forme d'objectifs pondérés. Cependant, les objectifs pondérés ne permettent pas d'imposer une hiérarchie stricte, ce qui peut conduire à des résultats indésirables, voire dangereux. Les relations de préférence entre objectifs et critères, en revanche, autorisent des hiérarchies strictes, préservant des propriétés importantes du comportement des agents qui ne devraient pas être négociées accidentellement lors de l'optimisation. Toutefois, l'introduction de relations de préférence entre plusieurs objectifs accroît la complexité computationnelle des problèmes d'optimisation en raison de la structure d'objectifs imbriqués qu'elles induisent.
La thèse proposée s'articulera autour de trois axes afin de progresser sur les problématiques soulevées par les problèmes multi-objectifs. Premièrement, les problèmes multi-agents se prêtent naturellement à une analyse en théorie des jeux, où les participants cherchent à atteindre des équilibres représentant des politiques optimales en équilibrant leurs préférences et celles des autres. Deuxièmement, en raison de la difficulté d'introduire l'incertitude de l'environnement dans le cadre classique de la théorie des jeux, la thèse étudiera les effets des relations de préférence dans les processus de décision markoviens et examinera les aspects de modélisation et de calcul du point de vue de l'ordonnancement de formules de logique temporelle. Enfin, le troisième axe portera sur l'application des relations de préférence au façonnage des récompenses en apprentissage par renforcement, avec l'hypothèse raisonnée que les préférences améliorent les performances par rapport à des structures de récompense simples.
-
-
Multiagent systems must jointly disambiguate—potentially conflicting—objectives and criteria. Finding (approximate-)optimal strategies for multiagent systems requires the resolution of multi-objective problems, which are often stated as weighted objectives. However, weighted objectives cannot enforce a strict hierarchy, which can subsequently result in undesired and hazardous outcomes. Preference relations on objectives and criteria instead admit strict hierarchies, preserving important agent behavior properties that should not be accidentally negotiated during optimization. However, introducing preference relations on multiple objectives increases the computational complexity of optimization problems due to the nested objective structure they induce.
The proposed thesis will work along three axes to make progress on the problems that arise in multi-objective settings. First, multiagent problems are naturally amenable to game-theoretic analysis, where participants strive to find equilibria that represent optimal policies as they balance their preferences and those of others. Second, due to the difficulty of introducing uncertainty in the environment in traditional game-theoretic settings, the proposed thesis will study the effects of preference relations in Markov decision processes and will examine modeling and computational aspects from the perspective of ordering temporal logic sentences. Finally, the third axis will center on the application of preference relations for reward shaping in reinforcement learning, with the educated guess that preferences improve performance compared to simple reward structures.
-
-
Début de la thèse : 01/10/2026
Solide formation en informatique, en robotique, en automatique ou en mathématiques appliquées ; familiarité avec l'optimisation et l'apprentissage par renforcement ; intérêt pour les systèmes multi-agents, la théorie des jeux et les méthodes formelles (y compris les processus de décision markoviens et la logique temporelle). De solides compétences en programmation ainsi que la capacité à travailler à la fois sur des aspects théoriques et sur l'implémentation sont attendues.
A strong background in computer science, robotics, control, or applied mathematics; familiarity with optimization and reinforcement learning; interest in multi-agent systems, game theory, and formal methods (including Markov decision processes and temporal logic). Solid programming skills and the ability to work across theory and implementation are expected.
Date limite de candidature
31/07/2026