Scripting et automatisation des campagnes de test (Python principalement) : exécution massive, parallélisation, collecte de logs et de métriques.
Construction et maintenance des datasets de recette : extraction et préparation de corpus, parsing de documents hétérogènes (PDF, HTML, Office, scans OCR), chunking adapté aux uses cases.
Génération d'embeddings de test et validation des index vectoriels (recall@k, MRR, qualité de la similarité, taille de chunks, stratégies de fenêtrage).
Tests des workflows agentiques : validation des chaînes d'agents, des outils invoqués (function calling), du routage des intentions, de la gestion d'erreurs et des fallbacks.
Mise en place d'évaluations LLM-as-a-judge (rubrics, scoring automatique, calibration par échantillonnage humain).
Tests de non-régression sur prompts, modèles (changements de version) et sources documentaires (mises à jour de la base).
Tests de robustesse et de sécurité : jailbreak, prompt injection, leakage de données sensibles, biais, conformité aux exigences réglementaires bancaires.
Reporting des défauts et collaboration directe avec les équipes Data/ML/Dev pour le débogage et la correction.
Contribution à l'outillage de recette : développement de helpers internes, intégration aux pipelines CI/CD, dashboards de qualité (Streamlit, Grafana, etc.).
Expérience confirmée en recette / QA sur des produits data, IA ou applicatifs critiques (idéalement secteur bancaire/assurance).
Maîtrise solide de Python : scripting, automatisation, manipulation de données, librairies de test (pytest, unittest).
Connaissance pratique des composants RAG : parsing (Unstructured, PyMuPDF, LlamaParse), chunking (recursive, semantic, hybride), modèles d'embeddings (OpenAI, Mistral, Cohere, BGE, etc.), bases vectorielles (Pinecone, Weaviate, Qdrant, FAISS, pgvector), reranking.
Connaissance des frameworks LLM/Agents : LangChain, LlamaIndex, LangGraph, Semantic Kernel, ou équivalents propriétaires.
Frameworks d'évaluation RAG : RAGAS, TruLens, DeepEval, Promptfoo, Giskard, Arize Phoenix, ou benchmarks internes.
Pratique de l'orchestration de workflows : génération et test de workflows agentiques (LangGraph, n8n, Make, ou framework maison).
Manipulation d'API LLM : OpenAI, Azure OpenAI, Anthropic, Mistral, Bedrock — gestion du rate limiting, retry, instrumentation.
Git, CI/CD, Docker : intégration des tests aux pipelines, capacité à industrialiser une chaîne de recette.
Notions de MLOps / LLMOps : versioning de prompts, tracking d'expérimentations (MLflow, Weights & Biases, Langfuse), monitoring de production.
Capacité à réaliser des expérimentations techniques (POC de scripts d'évaluation, prototypes de pipelines de recette) en autonomie.
Rigueur et esprit d'analyse poussés — la qualité d'un système RAG se joue dans le détail.
Pragmatisme et capacité à arbitrer entre couverture exhaustive et délais industriels.
Excellentes capacités rédactionnelles (rapports de recette, documentation technique) et de présentation orale.
Curiosité technologique : veille active sur les méthodes d'évaluation des LLM et systèmes agentiques.
Coordination, sens du service et du dialogue avec des interlocuteurs variés (Data Scientists, Devs, Architects, PO, métiers).
Capacité d'initiative, force de proposition sur l'amélioration des process de recette.
Anglais courant impératif pour ce poste (documentation technique, échanges internationaux).