L'objectif global de cette thèse CIFRE est de développer des modèles d'aide à la décision en temps réel pour automatiser la construction et la navigation dans les schémas d'adressage produits par la méthode MSMKC. Deux axes structurent les travaux.
Axe 1 — Construction automatisée des schémas d'adressage.
Le premier axe vise à automatiser les étapes 2 à 4 de la méthode MSMKC, à savoir le regroupement en idées-clés, l'agrégation en cas d'usage et l'assemblage en vitrines, sans disposer de données massivement labellisées. Ce problème s'inscrit à l'intersection de trois champs de recherche. L'argument mining a formalisé l'extraction automatique de key points depuis des collections de phrases argumentatives, en proposant des cadres de résumé quantitatif permettant de regrouper et de reformuler automatiquement des arguments redondants en formulations courtes et dédupliquées. La construction automatique de taxonomies par LLMs a quant à elle démontré la capacité de ces modèles à produire des structures hiérarchiques cohérentes par extraction de terminologie, clustering sémantique et raffinement itératif. Les approches de type GraphRAG organisent enfin hiérarchiquement un corpus brut en extrayant entités et relations via un LLM, en détectant des communautés sémantiques par algorithme de Leiden, puis en générant des résumés par niveau exploitables à la requête. Ces travaux constituent des précédents directs, mais ne prennent pas en charge les contraintes de cohérence et de parcimonie imposées ici par les trois vecteurs de valeur persuasive.
Deux pistes complémentaires sont explorées pour lever ces verrous. La première formalise la construction du schéma comme un processus itératif de co-construction humain-machine (Human-in-the-Loop), dans la lignée des systèmes RAG et des pipelines interactifs de construction de graphes de connaissances. Le commercial affine itérativement le schéma par ses requêtes ; la théorie de l'information guide mathématiquement la convergence, via l'information mutuelle pour sélectionner et ordonner les arguments les plus pertinents, et la divergence de Kullback-Leibler pour quantifier les écarts entre représentations candidates. La seconde adopte une stratégie non supervisée pour cartographier les relations latentes entre silos documentaires hétérogènes, en déployant une modélisation hiérarchique bayésienne complétée par des approches fondées sur l'estimation neuronale de l'information mutuelle et les auto-encodeurs variationnels semi-supervisés.
Axe 2 — Navigation conversationnelle en temps réel dans le schéma d'adressage.
Le second axe intègre le flux audio des appels commerciaux pour assister le vendeur en direct, en projetant les signaux conversationnels détectés sur les trois vecteurs de valeur persuasive afin de naviguer dynamiquement dans le schéma construit par l'axe 1.
Une première piste exploite des frameworks de transcription et d'analyse conversationnelle en streaming pour produire, phrase par phrase, une analyse conjointe du sentiment (texte et prosodie) et de l'intention du client via des modèles end-to-end de compréhension du langage parlé (Spoken Language Understanding, SLU) multimodaux, combinant classification d'intention (Intent Classification) et extraction de slots (Slot Filling). Les contenus détectés sont projetés sur les trois vecteurs de valeur à l'aide de mesures d'information mutuelle héritées de l'axe 1, en s'appuyant sur des modèles d'embeddings audio tels que Speech2Vec. Cette projection permet de sélectionner dynamiquement les branches pertinentes du schéma en maximisant la pertinence informationnelle vis-à-vis du retour client et en minimisant l'entropie des chemins explorés.
Une seconde piste s'appuie sur les graphes de connaissances construits par l'axe 1, en les enrichissant d'une couche neurosymbolique. Ce paradigme, qui combine représentations neurales et raisonnement symbolique pour tirer parti de leurs forces complémentaires, a fait l'objet d'une attention croissante pour le raisonnement sur des structures hiérarchiques : il offre notamment interprétabilité et intégration de connaissances expertes, deux propriétés essentielles dans un contexte commercial où les décisions du vendeur doivent rester auditables. Des travaux récents ont par ailleurs montré que des graphes de connaissances dynamiques, mis à jour au fil du dialogue, permettent d'améliorer significativement la cohérence et la pertinence des réponses générées. Cette piste exploite ces avancées pour assurer deux fonctions complémentaires via une boucle de rétroaction dynamique : d'une part, naviguer dans le graphe en fonction de l'intention et du sentiment détectés, avec suggestion proactive de questions ou de vitrines au commercial ; d'autre part, mettre à jour la structure en temps réel par repondération bayésienne des branches, détection et résolution automatiques d'incohérences, et fusion ou suppression de clés d'interprétation redondantes.
La robustesse du système sera renforcée par des approches d'alignement intermodal projetant l'espace audio sur les espaces textuels et sémantiques de l'axe 1, ainsi que par des modèles récents de compréhension du langage parlé, notamment des transformers multimodaux et des LLMs fine-tunés sur le domaine commercial, intégrant des modèles graphème-phonème. Adaptés sur les données annotées produites par les travaux de la thèse précédente, ces modèles permettront une détection fine des intentions tout en gérant l'ambiguïté déjà formalisée. L'évaluation portera sur des jeux de données réels d'appels anonymisés, selon trois familles de métriques : précision de navigation (correspondance entre chemin suggéré et vecteur prioritaire), impact opérationnel (temps de réponse du commercial, taux de conversion) et robustesse aux biais (accents, bruit de fond, spécificités du français). Des extensions possibles incluront l'apprentissage actif pour le raffinement continu des schémas à partir des retours clients.