Le Domain Manager SRE est responsable de garantir la fiabilité des services, l?excellence opérationnelle et la conformité des performances sur l?ensemble des environnements, tout en intégrant les pratiques SRE au sein de l?Agile Release Train et du cycle de livraison produit.
Il agit comme garant de l?évolution des produits vers la production, en veillant à ce que le niveau de qualité soit toujours conforme aux attentes des clients.
Il collabore étroitement avec les équipes Produit, Tech et Plateforme afin de maintenir un équilibre entre innovation, vélocité et robustesse opérationnelle.
MissionGarantir la stabilité, la performance et la disponibilité des services en production et hors production
Promouvoir une culture orientée fiabilité au sein des équipes de delivery
Assurer un rôle de gatekeeper dans le passage en production des évolutions produits, en garantissant un niveau de qualité aligné avec les attentes clients
Responsabilités principalesDéfinir, suivre et reporter les SLO (Service Level Objectives), SLI (Service Level Indicators) et error budgets sur les différents environnements afin d?assurer une fiabilité mesurable par domaine applicatif
Mettre en place et améliorer en continu des solutions robustes d?observabilité, monitoring et alerting
Superviser la préparation opérationnelle des releases et garantir la stabilité en production via une coordination transverse avec les équipes Produit et Tech
Être en capacité de bloquer une mise en production si le niveau de qualité ne correspond pas aux attentes clients
Piloter la gestion des incidents, les analyses de causes racines et les post-mortems afin d?assurer l?amélioration continue
Collaborer avec les équipes Core Platform et Observability & FinOps pour :
Renforcer la résilience des systèmes
Optimiser les coûts
Maintenir la performance de la plateforme
Communiquer sur l?état de la fiabilité, les risques et les plans d?amélioration auprès des Agile Release Managers et des responsables de domaine
Participer activement à l?Agile Release Train (ART) comme référent fiabilité et opérations, en soutenant le rythme et la qualité des livraisons
Profil candidat:
Compétences techniquesForte expertise en Site Reliability Engineering (SRE) dans des environnements SaaS ou cloud-native
Excellente maîtrise des concepts d?observabilité, d?automatisation et de monitoring
Expérience confirmée dans la définition et le pilotage de SLO, SLI et error budgets
Bonne maîtrise des pratiques DevSecOps, des pipelines CI/CD et du monitoring continu
Compétences fonctionnellesExpérience solide en :
Gestion des incidents
Analyses post-mortem
Préparation opérationnelle des mises en production
Capacité avérée à coordonner des initiatives de fiabilité entre équipes Produit, Tech et Plateforme
Orientation forte sur les métriques de performance, la prévention des incidents et la gouvernance opérationnelle
Soft skillsForte capacité d?analyse avec une approche data-driven dans le suivi de la fiabilité
Rigueur et sens du pilotage des indicateurs
Capacité à travailler avec des parties prenantes multiples