Le Data Engineer supervise et intègre des données de natures diverses provenant de sources multiples ; il vérifie la qualité des données entrant dans le Data Lake, en effectuant notamment des tests, la déduplication et les activités d'assurance qualité associées.
Les principales responsabilités incluent :
Qualification et gestion des données :
- Collecte de données structurées et non structurées produites par différentes applications ou provenant de sources externes à l'entité
- Structuration des données (sémantique, etc.)
- Cartographie des éléments disponibles
- Nettoyage des données (élimination des doublons, etc.)
- Création éventuelle du référentiel de données
La plateforme de données permet à tous les domaines producteurs de données de mettre à disposition des données brutes ou retravaillées dans un Data Lake. Cette plateforme gère notamment les fonctionnalités et les données relevant du périmètre métier « Relation Réseau ». Elle permet :
- L'intégration et l'assurance qualité des données brutes reçues des distributeurs
- La mise à disposition de données GRD exploitables pour tous les besoins du segment et de l'organisation (qu'il s'agisse de besoins opérationnels ou analytiques issus de tous les domaines métiers)
Principales missions :
- Maîtrise des outils Databricks (création de jobs, clusters, notebooks) et capacité à effectuer des requêtes SQL efficaces
- Maintien en conditions opérationnelles de la plateforme de production (analyse et correction d'incidents et d'anomalies)
- Développement de jobs d'ingestion et de transformation de données en Python avec Spark pour traiter de grands volumes de données
- Apport d'une vision à long terme, tant sur le plan opérationnel que stratégique pour la plateforme de données
- Soutien et promotion des meilleures pratiques
- Participation aux ateliers de conception technique et fonctionnelle
- Rédaction et mise à jour de la documentation technique
Profil candidat:
SQL
Niveaux d'expérience Python V3 Confirmé
Niveaux d'expérience Pyspark Confirmé
Databricks (unity catalog, workflow, job, notebook) Confirmé
AWS (Lambda, ECS, Step Function) confirmé