Dans le cadre de la transformation cloud-native de ses infrastructures à l'échelle internationale (multi-cloud AWS/GCP, microservices, Kubernetes), notre client souhaite structurer et centraliser sa stratégie de visibilité. Rattaché(e) directement au DevOps Manager, le ou la Manager Observabilité / Tech Lead pilote la gouvernance globale des logs, métriques et traces. Ce rôle stratégique et transverse vise à standardiser les outils pour basculer d'une posture réactive à une culture de l'observabilité proactive, garantissant la résilience des plateformes et la réduction du MTTR.
En tant que référent(e) et servant leader, vos missions s'articulent autour de cinq grands axes :
Stratégie & Gouvernance : Définir et piloter la feuille de route globale de l'observabilité (logs, métriques, traces, synthétiques). Standardiser les patterns d'intégration pour les architectures modernes (microservices, Kafka, Kong API Gateway, pipelines GitLab).
Gestion des Plateformes : Assurer le maintien en condition opérationnelle, la scalabilité, l'évolution et l'optimisation des coûts/capacités des outils de monitoring (Dynatrace, Splunk, Zabbix, AWS CloudWatch, GCP Monitoring).
Instrumentation End-to-End : Garantir la visibilité complète de la chaîne de valeur en imposant des standards d'instrumentation (APM, conteneurs EKS/GKE, Serverless, bases de données SQL/NoSQL, réseaux). Accompagner les Tech Leads et développeurs dans cette démarche.
Intelligence Opérationnelle & Automatisation : Mettre en place des politiques d'alerting intelligentes (corrélation, réduction du bruit via l'IA/ML de Dynatrace/Splunk). Créer des dashboards temps réel et des analyses de dépendances pour accélérer le diagnostic (RCA) lors d'incidents majeurs.
Collaboration & Accompagnement : Collaborer étroitement avec les équipes SRE, DevOps, QA et Cyber. Assurer l'alignement entre la technique et le métier en intégrant des KPIs business aux dashboards techniques, tout en accompagnant la montée en compétences des collaborateurs (coaching, management direct possible).
Expérience : 8 à 12 ans d'expérience minimum dans l'univers de la production IT, du SRE, du DevOps ou de l'ingénierie de la performance.
Expertise Technique :
Maîtrise approfondie des solutions du marché : Dynatrace, Splunk, Zabbix, Datadog, Prometheus/Grafana ou ELK.
Solide culture des environnements cloud distribués (AWS / GCP) et de l'orchestration de conteneurs (Kubernetes / EKS / GKE).
Bonne compréhension des architectures événementielles (Kafka) et des APIs.
Automatisation : Compétences avérées en scripting et Infrastructure as Code (Python, Bash, Terraform).
Soft Skills : Leadership naturel, esprit analytique affûté et excellente communication pour vulgariser des concepts complexes auprès de parties prenantes variées. Votre capacité à garder votre calme sous pression lors d'incidents critiques sera un atout indispensable.