Je recherche un Expert? OpenShift / Kubernetes (BAU / RUN + Gestion d?incidents complexes) au sein de l?équipe d?infrastructure cloud sera(ront) chargé(s) de garantir la disponibilité, la performance et la sécurité des plateformes OpenShift/Kubernetes en exploitation quotidienne (BAU?RUN). Il/elle devra également prendre en charge les incidents complexes (??60?% du temps) et contribuer à des projets transversaux (??40?% du temps)?: optimisation financière (FinOps), amélioration du tooling, automatisation et bonnes pratiques.
Principales responsabilités
Exploitation courante ? BAU / RUN (??30?%)
Veiller à la disponibilité, à la scalabilité et à la conformité des clusters OpenShift/Kubernetes.
Effectuer les tâches de maintenance planifiée (patching, upgrades, sauvegardes).
Contrôler les indicateurs de santé (metrics, logs, alerts) et assurer le suivi des SLAs.
Gestion d?incidents complexes (??30?%)
Analyser, diagnostiquer et résoudre les incidents de niveau 2/3 affectant les workloads, le réseau, le stockage ou la sécurité.
Coordonner les interventions multi?équipes (développeurs, sécurité, réseau).
Rédiger les rapports d?incident, identifier les causes racines et proposer des actions correctives/preventives.
Projets transversaux et optimisation (??40?%)
FinOps?: suivre la consommation de ressources cloud, proposer des actions de réduction de coûts (right?sizing, utilisation de réservations, optimisation des quotas).
Tooling & automatisation?: développer ou améliorer les scripts/CI?CD, les opérateurs, les chartes Helm et les outils de monitoring.
Standardisation & bonnes pratiques?: rédiger et diffuser les référentiels d?architecture, les guides de sécurisation et les procédures d?onboarding des équipes de développement.
Participer aux revues de design, aux proof?of?concept (PoC) et aux migrations de workloads.
Compétences attendues
Niveau?1 - opérationnelle d?OpenShift 4.x et de Kubernetes (déploiements, services, ingress).
Bonne connaissance des concepts réseau (CNI, Service Mesh), stockage persistant et sécurité des pods.
Utilisation des outils de monitoring (Prometheus/Grafana, Loki) et de logging.
Scripting (Bash, Python) et automatisation basique (Ansible, GitOps). Minimum 2?ans d?expérience en exploitation de clusters Kubernetes en production. - Gestion quotidienne des environnements, suivi des alertes, support de niveau?1/2.
Participation à la résolution d?incidents courants.
Niveau?2 - Expertise avancée sur l?architecture multi?cluster, la haute disponibilité et le profiling des performances.
Connaissance approfondie des mécanismes de sécurité (RBAC, OPA/Gatekeeper, secrets management).
Expérience avec les plateformes FinOps et l?optimisation des coûts cloud.
Développement d?opérateurs, Helm charts complexes, CI/CD avancé (Jenkins, GitLab CI, Argo CD).
Capacité à conduire des projets d?amélioration continue et à piloter des PoC. Minimum 5?ans d?expérience, dont 3?ans à un poste d?expertise ou de lead sur des environnements Kubernetes/Openshift. - Prise en charge d?incidents critiques, analyses de causes racines et mise en place de correctifs durables.
Pilotage des initiatives FinOps et optimisation du tooling.
Encadrement et transfert de connaissances aux équipes Niveau?1.
Profil recherché
Formation?: diplôme d?ingénieur ou équivalent en informatique, télécoms ou disciplines connexes.
Qualités personnelles?: autonomie, rigueur, capacité à travailler sous pression, bonnes aptitudes rédactionnelles et de communication (pour les rapports d?incident et la diffusion des standards).
Langues?: français et anglais (lecture/écriture technique).
Environnement de travail
Équipe d?infrastructure cloud multi?disciplinaire.
Collaboration avec les équipes de développement, sécurité, finance et gestion de projet.
Utilisation d?outils de suivi (Jira/ServiceNow), de documentation (Confluence) et de versionning (Git).
Modalités d?évaluation
KPIs?: disponibilité des clusters (MTBF, MTTR), temps moyen de résolution d?incidents, économies réalisées via FinOps, taux d?automatisation des tâches récurrentes.
Revues périodiques?: audits de conformité, évaluations de performance et bilans de projets transversaux.
Profil candidat:
Je recherche un Expert?OpenShift / Kubernetes (BAU / RUN + Gestion d?incidents complexes) au sein de l?équipe d?infrastructure cloud sera(ront) chargé(s) de garantir la disponibilité, la performance et la sécurité des plateformes OpenShift/Kubernetes en exploitation quotidienne (BAU?RUN). Il/elle devra également prendre en charge les incidents complexes (??60?% du temps) et contribuer à des projets transversaux (??40?% du temps)?: optimisation financière (FinOps), amélioration du tooling, automatisation et bonnes pratiques.