Pour le compte d'un acteur majeur de l'écosystème tech, nous recherchons un(e) Domain Manager de haut niveau. Au croisement de la Delivery Agile et de l'Excellence Opérationnelle, votre rôle sera d'ancrer la culture de la fiabilité au c?ur du cycle de vie des produits à forte échelle. Vous agirez comme le garant de la qualité et le partenaire clé de la transformation continue de la plateforme.
En tant que garant(e) de la stabilité, de la performance et de la disponibilité des services sur l'ensemble des environnements (production et hors-production), vos responsabilités principales s'articulent autour des axes suivants :
Pilotage de la fiabilité & SRE : Définir, suivre et piloter les indicateurs clés (SLI/SLO) ainsi que les budgets d'erreur (error budgets) par domaine applicatif. Assurer la pertinence et l'évolution continue des frameworks de monitoring, d'alerting et d'observabilité.
Garde-fou des releases (Gatekeeping) : Évaluer et valider la préparation opérationnelle de chaque mise en production en étroite coordination avec les équipes Produit et Tech. Vous disposez d?un droit de veto légitime sur les livraisons si la qualité mesurée ne répond pas aux exigences du service.
Gestion des incidents & Amélioration : Orchestrer la réponse aux incidents majeurs du domaine, animer les revues post-mortem et formaliser les analyses de causes racines (RCA) afin de pérenniser la résilience du système.
Synergie Transverse : Collaborer activement avec les équipes Core Platform, Observability et FinOps pour optimiser à la fois l'efficience des coûts et la robustesse des infrastructures.
Gouvernance Agile : Incarner la voix de la fiabilité au sein de l'Agile Release Train (ART). Reporter de manière transparente l'état de la fiabilité et les risques identifiés auprès des Agile Release Managers et du leadership de domaine.
Profil candidat:
Vous possédez une solide expérience dans la gouvernance de systèmes critiques et disposez d?une sensibilité forte aux architectures Cloud modernes.
Compétences Techniques & Méthodologiques :
Expertise confirmée en Site Reliability Engineering (SRE) au sein d'environnements SaaS ou Cloud-Native.
Maîtrise approfondie des concepts d'observabilité, d'automatisation et de supervision.
Expérience pratique dans la définition et le management de matrices SLI/SLO en collaboration étroite avec les ingénieurs.
Bonne culture des pratiques DevSecOps, des pipelines CI/CD et de la surveillance continue.
Compétences Fonctionnelles & Soft Skills :
Solide expérience en gestion d'incidents critiques, analyses post-mortem et gouvernance opérationnelle.
Aptitude démontrée à fédérer et coordonner des initiatives transverses (Produit, Tech, Plateforme).
Esprit rigoureux, analytique et orienté "data-driven".
Postures diplomate et ferme, indispensables pour porter la voix de la qualité et assumer l?exercice d?un droit de veto constructif.