La planification de mouvement et la prise de décision sont des composants fondamentaux de l’architecture de la conduite autonome. Elles permettent de transformer les données de perception et le modèle du monde en commandes exploitables assurant la sécurité, le confort et l’efficacité énergétique.
Traditionnellement, ces fonctions reposent sur des approches classiques telles que des règles heuristiques, des algorithmes d’optimisation ou des modèles basés sur la physique. Bien qu’efficaces dans des environnements structurés, ces méthodes rencontrent des difficultés dans des scénarios complexes et dynamiques.
La conduite dans le monde réel implique des interactions imprévisibles avec de multiples agents (véhicules, piétons, cyclistes), des conditions environnementales variables (météo, luminosité) et des incertitudes liées aux systèmes de perception.
Dans ce contexte, le Deep Learning (DL) offre une alternative prometteuse. En exploitant des jeux de données à grande échelle, les modèles de DL peuvent apprendre des représentations complexes et des politiques de conduite sans nécessiter une modélisation explicite de toutes les situations possibles.
Les architectures modernes, en particulier le Deep Reinforcement Learning (DRL), démontrent de fortes capacités pour modéliser les interactions multi-agents et prédire les comportements futurs.
Cette thèse vise à développer un cadre basé sur le Deep Learning pour la planification de mouvement, capable d’intégrer perception, prédiction et prise de décision dans une approche unifiée. L’objectif est de concevoir des modèles qui mappent des entrées multi-capteurs vers des trajectoires optimisées tout en respectant des contraintes strictes de sécurité, de confort et d’efficacité.
Cette recherche s’inscrit dans la vision stratégique de Renault visant à développer des véhicules intelligents, connectés et automatisés, tout en améliorant la sécurité routière et l’expérience de conduite des utilisateurs.
Comme le soulignent des études récentes, les approches basées sur des règles peinent à capturer la complexité des environnements dynamiques multi-agents et ne généralisent pas efficacement à des situations réelles diversifiées.
Face à ces limitations, des approches basées sur l’apprentissage ont été introduites, suivant principalement deux paradigmes distincts.
Le premier paradigme correspond aux approches de bout en bout (end-to-end), qui visent à apprendre une correspondance directe entre les entrées de perception et les commandes de contrôle. Ces méthodes ont montré des résultats prometteurs dans les contextes académiques et industriels, notamment grâce à leur capacité à exploiter des données à grande échelle. Cependant, elles manquent souvent d’interprétabilité et nécessitent de grandes quantités de données pour atteindre des performances robustes.
Le second paradigme concerne les approches hybrides, qui conservent la structure modulaire des architectures traditionnelles tout en intégrant des composants basés sur l’apprentissage dans des modules spécifiques, notamment pour la prédiction et la planification. Ces méthodes visent à combiner la robustesse et la traçabilité des pipelines classiques avec la flexibilité et l’adaptabilité des modèles d’apprentissage automatique.
Plus récemment, la recherche a convergé vers la combinaison de l’apprentissage par imitation et de l’apprentissage par renforcement. L’apprentissage par imitation permet aux modèles d’apprendre à partir de démonstrations d’experts, offrant une initialisation stable et accélérant la convergence. L’apprentissage par renforcement, quant à lui, permet d’optimiser des objectifs à long terme par interaction avec l’environnement, améliorant ainsi la généralisation et l’adaptabilité.
Les avancées en apprentissage de représentations ont également contribué de manière significative à l’amélioration des performances en planification de mouvement. Les représentations en vue de dessus (Bird’s Eye View) sont largement adoptées en raison de leur capacité à fournir une représentation structurée et interprétable de l’environnement de conduite. Par ailleurs, les mécanismes d’attention et les architectures basées sur les Transformers ont amélioré la modélisation des dépendances spatio-temporelles ainsi que des interactions entre multiples agents.
Dans le domaine de l’apprentissage par renforcement, plusieurs algorithmes tels que Deep Q-Networks, Soft Actor-Critic et Proximal Policy Optimization offrent une meilleure stabilité et efficacité en termes d’échantillonnage.
Malgré ces avancées, des défis majeurs subsistent en matière de sécurité, de robustesse et d’explicabilité, qui sont essentiels pour un déploiement dans le monde réel.
L’objectif principal de cette thèse est de concevoir, développer et valider un système de planification de mouvement basé sur le Deep Learning capable de générer des trajectoires sûres, efficaces et adaptatives dans des environnements dynamiques et multi-agents.
L’approche vise à exploiter à la fois des jeux de données de conduite réels à grande échelle et des environnements de simulation afin d’assurer de fortes capacités de généralisation et de robustesse.
Un élément central du travail proposé est l’intégration de l’apprentissage par imitation et de l’apprentissage par renforcement au sein d’un cadre unifié. Cette combinaison permet à la fois une initialisation stable grâce aux données d’experts et une amélioration continue des performances par interaction avec des environnements simulés.
Le système sera conçu pour répondre aux exigences strictes du déploiement industriel, notamment en termes de sécurité, de fiabilité et d’efficacité computationnelle.
Pour atteindre cet objectif, la recherche abordera plusieurs défis scientifiques majeurs, notamment les jeux de données à grande échelle, les environnements multi-agents et les représentations spatio-temporelles, avec une attention particulière portée à la robustesse face à l’incertitude.
Analyse comparative de l’état de l’art en planification de mouvement et en Deep Learning, incluant l’apprentissage par imitation, l’apprentissage par renforcement et les approches hybrides.
Étude et mise en œuvre d’une chaîne de planification de mouvement basée sur le Deep Learning, exploitant des représentations en vue de dessus (Bird’s Eye View) et intégrant des modules de prédiction. L’intégration de l’apprentissage par renforcement sera étudiée pour intégrer des contraintes de sécurité et des objectifs à long terme.
Évaluation sur des jeux de données internes Renault et des jeux de données publics tels que nuScenes, afin d’évaluer les performances et d’assurer la généralisation.
Analyse des contraintes de déployabilité (coût computationnel et empreinte mémoire) et optimisation pour des systèmes embarqués et une exécution en temps réel.
Répartition des Activités entre Renault et le Laboratoire
40 % de présence chez Renault
60 % de présence au laboratoire
Livrables Principaux
Trois publications scientifiques (au moins 2 conférences internationales + 1 article de revue)
Un brevet
Des rapports annuels sur les trois années de thèse
Compétences Requises pour le Doctorant
Connaissances : Deep Learning, apprentissage par renforcement, mathématiques appliquées, calcul scientifique
Développement : Solides compétences en programmation Python, Rust, C++
Formation : Diplôme d’ingénieur ou Master en IA & Robotique
Compétences personnelles : Motivation, autonomie, compétences en communication
Motion planning and decision-making are fundamental components of autonomous driving architecture. They enable the transformation of perception data and world model into actionable commands that ensure safety , comfort, and energy efficiency.
Traditionally, these functions rely on classical approaches such as heuristic rules, optimization algorithms, or physics-based models. While effective in structured environments, these methods struggle in complex and dynamic scenarios .
Real-world driving involves unpredictable interactions with multiple agents (vehicles, pedestrians, cyclists), varying environmental conditions (weather, lighting), and uncertainty in perception systems.
In this context, Deep Learning (DL) offers a promising alternative. By leveraging large-scale datasets, DL models can learn complex representations and driving policies without requiring explicit modeling of all possible situations.
Modern architecture, particularly Transformers and Deep Reinforcement Learning (DRL) , demonstrate strong capabilities in modeling multi-agent interactions and predicting future behaviors.
This PhD aims to develop a Deep Learning-based framework for motion planning capable of integrating perception, prediction, and decision-making in a unified approach. The objective is to design models that map multi-sensor inputs to optimized trajectories while complying with strict constraints on safety, comfort, and efficiency.
This research aligns with Renault’s strategic vision of developing intelligent, connected, and automated vehicles, enhancing road safety and user driving experience.
As highlighted in recent surveys, rule-based approaches struggle to capture the complexity of dynamic multiagent environments and fail to generalize effectively to diverse real-world situations [12].
In response to these limitations, learning-based approaches have been introduced, primarily following two distinct paradigms.
The first paradigm consists of end-to-end approaches , which aim to learn a direct mapping from perception inputs to control outputs. These methods have shown promising results in both academic and industrial contexts, particularly due to their ability to exploit large-scale datasets [2]. However, they often lack interpretability and require significant amounts of data to achieve robust performance.
The second paradigm focuses on hybrid approaches that preserve the modular structure of traditional architectures while integrating learning-based components into specific modules, particularly for prediction and planning. These hybrid methods aim to combine the robustness and traceability of classical pipelines with the flexibility and adaptability of machine learning models [1].
More recently, research has converged toward combining imitation learning and reinforcement learning . Imitation learning enables models to learn from expert demonstrations, providing a stable initialization and accelerating convergence [10]. Reinforcement learning, on the other hand, allows the system to optimize long-term objectives through interaction with the environment, improving generalization and adaptability [6].
Advances in representation learning have also significantly contributed to improved motion planning performance. Bird’s Eye View representations have become widely adopted due to their ability to provide a structured and interpretable representation of the driving environment. Additionally, attention mechanisms and Transformer-based architecture have enhanced the modeling of spatial-temporal dependencies and interactions among multiple agents [11].
In the reinforcement learning domain, several algorithms such as Deep Q-Networks , Soft Actor-Critic , and Proximal Policy Optimization offer improved stability and sample efficiency [5], [7], [8].
Despite these advances, key challenges remain regarding safety , robustness , and explainability , which are critical for real-world deployment.
The primary objective of this thesis is to design, develop, and validate a Deep Learning-based motion planning system capable of generating safe, efficient, and adaptive trajectories in dynamic and multi-agent environments.
The approach aims to exploit both large-scale real-world driving datasets and simulation environments to ensure strong generalization capabilities and robustness.
A central aspect of the proposed work is the integration of imitation learning and reinforcement learning within a unified framework . This combination enables both a stable initialization using expert driving data and a continuous improvement of performance through interaction with simulated environments.
The system will be designed to meet the stringent requirements of industrial deployment , particularly in terms of safety, reliability, and computational efficiency .
To achieve this objective, the research will address several major scientific challenges, including large-scale datasets, multi-agent environments, and spatial-temporal representations, with a particular focus on robustness against uncertainty .
Comparative state-of-the-art analysis of motion planning and Deep Learning approaches , including imitation learning, reinforcement learning, and hybrid methods.
Study and implementation of a Deep Learning-based motion planning pipeline , leveraging Bird’s Eye View representations and integrating prediction modules. Integration of Reinforcement Learning will be investigated for safety constraints and long-term objectives.
Evaluation on Renault internal datasets and public datasets such as nuScenes , to assess performance and ensure generalization.
Analysis of deployability constraints (computational cost and memory footprint) and optimization for embedded systems and real-time execution.
- 40% presence at Renault
- 60% presence at the laboratory
- Three scientific publications (at least 2 international conferences + 1 journal paper)
- One patent
- Annual reports over the three years of the PhD
- Knowledge: Deep Learning, Reinforcement Learning, applied mathematics, scientific computing
- Development: Strong Python programming skills, Rust, C++
- Education: Engineering degree or Master’s degree in AI & Robotics
- Personal Skills: Motivation, autonomy, communication skills