Au sein de l?équipe Site Reliability Engineering (SRE), vous serez responsable de la fiabilité, de la performance et de la scalabilité des plateformes Cloud de l?entreprise. Vous jouerez un rôle clé dans la conception, l?automatisation et l?exploitation au quotidien des environnements de production, avec un focus majeur sur les plateformes Red Hat OpenShift.
Responsabilités principales :
Opérations & Fiabilité (RUN) : Assurer la stabilité, la résilience et la performance des environnements Cloud et notamment OpenShift. Participer au déploiement, au monitoring, au troubleshooting complexe et à l?optimisation des applications en production. Contribuer à la mise en place et au suivi des SLOs, SLIs et SLAs.
Engineering & Automatisation (BUILD) : Développer et maintenir les pipelines CI/CD utilisant GitLab CI. Gérer et industrialiser l?infrastructure via Terraform, Helm et des pratiques modernes de déploiement. Participer au design et à l?évolution de l?architecture Cloud (Public, Privé, Hybride).
OpenShift & Kubernetes : Administrer et opérer des clusters OpenShift (installation, upgrades, capacity planning, gestion des opérateurs, sécurité). Améliorer la fiabilité de la plateforme et accompagner les équipes de développement dans la bonne utilisation et l'adoption d'OpenShift. Gérer les problématiques réseau, stockage, logging et monitoring dans un environnement Kubernetes/OpenShift.
Profil candidat:
Nous recherchons un profil senior doté d'une forte culture de la production informatique et passionné par les architectures Cloud Native.
Compétences techniques requises (Must-Have) :
OpenShift : Maîtrise avancée et indispensable de Red Hat OpenShift éprouvée en environnement de production.
Conteneurisation : Solide expérience opérationnelle de Kubernetes (K8s).
Pratiques DevOps & GitOps : Maîtrise des outils GitLab CI/CD, Terraform, Helm et Argo CD.
Observabilité : Pratique courante de Prometheus et Grafana pour le monitoring et l'alerting.
Architecture : Excellente compréhension des architectures microservices, des API REST et des patterns de résilience (circuit breaker, autoscaling, etc.).
Compétences additionnelles (Nice-to-Have) :
Expérience sur des environnements OpenShift à très forte charge ou large échelle (HUGE plus).
Connaissances approfondies en sécurité Cloud (politiques RBAC, secrets management, network policies).
Scripting : Python, Bash, Go (optionnel).