Thèse CIFRE IA conversationnelle pour la vente B2B : Génération automatique et navigation dynamique dans des graphes d'adressage commercial

Université de Reims Champagne-Ardenne -
Reims (51)

Soumettre votre candidature

Détails de l'emploi

Il y a 2 jours

Qualifications

Français
TensorFlow
Mathématiques appliquées
Schémas
PyTorch
Mathématiques
Anglais
Master
Pandas
Machine learning
NLP
Keras
Python
Data science

Description complète du poste

Thèse CIFRE IA conversationnelle pour la vente B2B : Génération automatique et navigation dynamique dans des graphes d'adressage commercial

Réf ABG-139478

Sujet de Thèse

09/06/2026

Cifre

Université de Reims Champagne-Ardenne

Lieu de travail

Reims - Grand Est - France

Intitulé du sujet

Thèse CIFRE IA conversationnelle pour la vente B2B : Génération automatique et navigation dynamique dans des graphes d'adressage commercial

Champs scientifiques

Science de la donnée (stockage, sécurité, mesure, analyse)
Informatique

Mots clés

NLP industriel, ambiguïté, théorie de l'information, modélisation hiérarchique bayésienne, Spoken Language Understanding, Intent Classification, Slot Filling, graphes de connaissances hiérarchiques et neurosymboliques, schémas d'adressage commercial, méthode MSMKC, valeur persuasive, apprentissage en contexte de données non labellisées

Description du sujet

L'objectif global de cette thèse CIFRE est de développer des modèles d'aide à la décision en temps réel pour automatiser la construction et la navigation dans les schémas d'adressage produits par la méthode MSMKC. Deux axes structurent les travaux.

Axe 1 — Construction automatisée des schémas d'adressage.

Le premier axe vise à automatiser les étapes 2 à 4 de la méthode MSMKC, à savoir le regroupement en idées-clés, l'agrégation en cas d'usage et l'assemblage en vitrines, sans disposer de données massivement labellisées. Ce problème s'inscrit à l'intersection de trois champs de recherche. L'argument mining a formalisé l'extraction automatique de key points depuis des collections de phrases argumentatives, en proposant des cadres de résumé quantitatif permettant de regrouper et de reformuler automatiquement des arguments redondants en formulations courtes et dédupliquées. La construction automatique de taxonomies par LLMs a quant à elle démontré la capacité de ces modèles à produire des structures hiérarchiques cohérentes par extraction de terminologie, clustering sémantique et raffinement itératif. Les approches de type GraphRAG organisent enfin hiérarchiquement un corpus brut en extrayant entités et relations via un LLM, en détectant des communautés sémantiques par algorithme de Leiden, puis en générant des résumés par niveau exploitables à la requête. Ces travaux constituent des précédents directs, mais ne prennent pas en charge les contraintes de cohérence et de parcimonie imposées ici par les trois vecteurs de valeur persuasive.

Deux pistes complémentaires sont explorées pour lever ces verrous. La première formalise la construction du schéma comme un processus itératif de co-construction humain-machine (Human-in-the-Loop), dans la lignée des systèmes RAG et des pipelines interactifs de construction de graphes de connaissances. Le commercial affine itérativement le schéma par ses requêtes ; la théorie de l'information guide mathématiquement la convergence, via l'information mutuelle pour sélectionner et ordonner les arguments les plus pertinents, et la divergence de Kullback-Leibler pour quantifier les écarts entre représentations candidates. La seconde adopte une stratégie non supervisée pour cartographier les relations latentes entre silos documentaires hétérogènes, en déployant une modélisation hiérarchique bayésienne complétée par des approches fondées sur l'estimation neuronale de l'information mutuelle et les auto-encodeurs variationnels semi-supervisés.

Axe 2 — Navigation conversationnelle en temps réel dans le schéma d'adressage.

Le second axe intègre le flux audio des appels commerciaux pour assister le vendeur en direct, en projetant les signaux conversationnels détectés sur les trois vecteurs de valeur persuasive afin de naviguer dynamiquement dans le schéma construit par l'axe 1.

Une première piste exploite des frameworks de transcription et d'analyse conversationnelle en streaming pour produire, phrase par phrase, une analyse conjointe du sentiment (texte et prosodie) et de l'intention du client via des modèles end-to-end de compréhension du langage parlé (Spoken Language Understanding, SLU) multimodaux, combinant classification d'intention (Intent Classification) et extraction de slots (Slot Filling). Les contenus détectés sont projetés sur les trois vecteurs de valeur à l'aide de mesures d'information mutuelle héritées de l'axe 1, en s'appuyant sur des modèles d'embeddings audio tels que Speech2Vec. Cette projection permet de sélectionner dynamiquement les branches pertinentes du schéma en maximisant la pertinence informationnelle vis-à-vis du retour client et en minimisant l'entropie des chemins explorés.

Une seconde piste s'appuie sur les graphes de connaissances construits par l'axe 1, en les enrichissant d'une couche neurosymbolique. Ce paradigme, qui combine représentations neurales et raisonnement symbolique pour tirer parti de leurs forces complémentaires, a fait l'objet d'une attention croissante pour le raisonnement sur des structures hiérarchiques : il offre notamment interprétabilité et intégration de connaissances expertes, deux propriétés essentielles dans un contexte commercial où les décisions du vendeur doivent rester auditables. Des travaux récents ont par ailleurs montré que des graphes de connaissances dynamiques, mis à jour au fil du dialogue, permettent d'améliorer significativement la cohérence et la pertinence des réponses générées. Cette piste exploite ces avancées pour assurer deux fonctions complémentaires via une boucle de rétroaction dynamique : d'une part, naviguer dans le graphe en fonction de l'intention et du sentiment détectés, avec suggestion proactive de questions ou de vitrines au commercial ; d'autre part, mettre à jour la structure en temps réel par repondération bayésienne des branches, détection et résolution automatiques d'incohérences, et fusion ou suppression de clés d'interprétation redondantes.

La robustesse du système sera renforcée par des approches d'alignement intermodal projetant l'espace audio sur les espaces textuels et sémantiques de l'axe 1, ainsi que par des modèles récents de compréhension du langage parlé, notamment des transformers multimodaux et des LLMs fine-tunés sur le domaine commercial, intégrant des modèles graphème-phonème. Adaptés sur les données annotées produites par les travaux de la thèse précédente, ces modèles permettront une détection fine des intentions tout en gérant l'ambiguïté déjà formalisée. L'évaluation portera sur des jeux de données réels d'appels anonymisés, selon trois familles de métriques : précision de navigation (correspondance entre chemin suggéré et vecteur prioritaire), impact opérationnel (temps de réponse du commercial, taux de conversion) et robustesse aux biais (accents, bruit de fond, spécificités du français). Des extensions possibles incluront l'apprentissage actif pour le raffinement continu des schémas à partir des retours clients.

Prise de fonction :

01/09/2026

Nature du financement

Cifre

Précisions sur le financement

Présentation établissement et labo d'accueil

Université de Reims Champagne-Ardenne

Pour structurer son activité d'adressage commercial en B2B, la société Chochoy Conseil a conçu la méthode propriétaire MSMKC. S'inscrivant dans la filiation des travaux de sciences de gestion sur le comportement d'achat industriel (Organizational Buying Behaviour) et de la théorie des valeurs de consommation, elle repose sur le postulat que la décision d'un acheteur institutionnel est gouvernée par une intention d'achat que l'on peut décomposer selon 3 vecteurs de valeur persuasive : le retour sur l’investissement (gains opérationnels), la notoriété (image de marque, expérience utilisateur) et l'obligation (conformité réglementaire, sécurité). L'objectif final de la méthode est de produire un schéma d'adressage sous la forme d’une carte hiérarchique qui résume, pour un secteur ou une organisation cible, les arguments commerciaux les plus pertinents, organisés selon les 3 vecteurs de valeur. Ce schéma sert de support opérationnel aux commerciaux pour préparer et conduire les échanges. Sa construction part du texte brut et remonte progressivement vers la structure en 4 étapes :

De documents bruts à des phrases pertinentes. À partir de documents hétérogènes (brochures, sites web, livres blancs, documents techniques), les phrases qui portent un argument persuasif sont identifiées puis classées selon le vecteur de valeur qu'elles activent. Cette étape mobilise les fondations de la psychologie de la persuasion et le traitement automatisé des langues naturelles (NLP) pour leur opérationnalisation récente lors de la détection de stratégies persuasives et de signaux d'intention d'achat dans le discours commercial.

De phrases à des idées-clés. Plusieurs phrases peuvent exprimer la même idée commerciale avec des mots différents. Cette étape les regroupe et les reformule en idées-clés unitaires, c'est-à-dire des formulations courtes, dédupliquées, qui captent un seul argument atomique.

D'idées-clés à des cas d'usage. Les idées-clés isolées ne suffisent pas à convaincre, car un argument prend sens dans un scénario métier. Par conséquent, lors de cette étape, les idées-clés sont agrégées en cas d'usage en tenant compte des dépendances entre elles (maturité du marché, ordre temporel, incohérences techniques ou économiques à éviter) dans la lignée de la chaîne moyens-fins.

De cas d'usage à un schéma d'adressage. Les cas d'usage sont enfin hiérarchisés et assemblés en un schéma visuel organisé selon les 3 vecteurs de valeur qui est utilisé par des commerciaux.

Le passage d'une production artisanale, réalisée à la main par des experts métier, à une industrialisation automatisée fait émerger de nouvelles tâches pour le traitement automatique du langage naturel (NLP) qui dépassent l'état de l'art standard centré sur l'extraction de faits objectifs ou l'analyse de sentiment. Plusieurs verrous fondamentaux ont déjà été levés dans le cadre d'une première thèse CIFRE : clarification conceptuelle de la valeur persuasive et de son ambiguïté intrinsèque, en s'inscrivant dans les travaux récents qui considèrent le désaccord d'annotation comme un signal et non comme du bruit ; diagnostic topologique du comportement des modèles Transformers face à ces désaccords ; formalisation d'un guide d'annotation reproductible ; conception d'un framework d'audit décomposé en critères binaires explicites évalués par probing de grands modèles de langue (LLM) permettant de contourner l'absence de données massivement labellisées.

Ces avancées ont validé les premières étapes du pipeline, à savoir l'extraction et la classification de phrases persuasives en contexte de données rares en facilitant grandement la construction, manuelle, des schémas d’adressage. Deux défis majeurs restent ouverts pour la suite du processus : i) la génération automatisée du schéma d'adressage complet (étapes 2 à 4), dont la densité et la structure doivent s'adapter à l'organisation ciblée, sous contraintes de cohérence, de parcimonie et d'interprétabilité ; ii) la navigation en temps réel dans ce schéma durant un échange commercial, à partir du flux conversationnel audio, pour reconfigurer dynamiquement les arguments suggérés au vendeur en fonction des objections et signaux exprimés par le prospect.

Profil du candidat

Profil et compétences scientifiques :

Formation : Bac+5 (école d'ingénieurs ou master) en data science, mathématiques appliquées ou informatique.
Expertise technique : Connaissances avancées en machine learning, NLP et/ou traitement de signaux audio, éprouvées lors d'un stage de fin d'études.
Théorie de l'information : Des connaissances solides dans ce domaine constituent un véritable atout.
Programmation : Très bonne maîtrise du langage Python et aisance avec les environnements de développement standards (TensorFlow, PyTorch, Keras, Pandas, Scikit-learn) pour implémenter et tester les méthodes proposées.
Rigueur : Esprit d’initiative, d’analyse, méthode et rigueur dans le travail de recherche.

Qualités humaines et linguistiques:

Motivation et posture : Motivation très importante, curiosité intellectuelle, autonomie et passion pour les projets en sciences des données.
Esprit d'équipe et d'entreprise : Bon relationnel, esprit d'entreprise et aptitude à travailler en équipe, avec la capacité de mener un projet de recherche à l'interface entre une société privée (Chochoy Conseil) et un laboratoire public (CReSTIC).
Compétences linguistiques : Maîtrise indispensable du français et de l’anglais (lu, écrit, parlé).

Date limite de candidature

30/06/2026

Soumettre votre candidature

Thèse CIFRE IA conversationnelle pour la vente B2B : Génération automatique et navigation dynamique dans des graphes d'adressage commercial

Description du sujet

Prise de fonction :

Nature du financement

Précisions sur le financement

Présentation établissement et labo d'accueil

Profil du candidat

Outils pour les chercheurs d'emploi

Outils Employeurs

Parcourir

Garder le contact