Data Scientist H/F
Durée indéterminée
100%
La Direction du Numérique et de la Stratégie d’Innovation de Radio France est responsable des orientations stratégiques et de la mise en œuvre du développement numérique de Radio France. A ce titre, et en lien avec les antennes et les directions transverses de l'entreprise, elle conçoit, développe, maintient et héberge les produits numériques comme les sites, les applications mobiles ou pour les objets connectés.
Elle accompagne les radios du groupe, ses directions et la Maison de la Radio dans la mise en œuvre des offres numériques.
La direction est structurée autour de 5 pôles complémentaires, dont la Direction des Technologies Numériques et Outils de Contribution (DTNOC) qui est à la recherche d'un-e Data Scientist.
Le ou la Data Scientist conçoit, développe et industrialise des modèles d'apprentissage automatique au service des activités éditoriales, techniques et patrimoniales de Radio France.
Au sein de l'équipe R&D, il·elle contribue aux projets du laboratoire, comme : l’amélioration de la qualité de la transcription automatique de la parole, le chapitrage automatique des podcasts, l’extraction automatique de métadonnées musicales (thèmes des paroles, type de voix, etc.).
Il·elle travaille en étroite collaboration avec les ingénieurs, les équipes éditoriales et les directions métiers afin de transformer les besoins du numérique et des antennes en briques d'intelligence artificielle robustes, évaluables et déployables en production.
Il·elle veille à la qualité scientifique des travaux, à la reproductibilité des expérimentations et à l'inscription des modèles dans les exigences de service public (transparence, sobriété, maîtrise des biais).
Conception, développement et évaluation de modèles
-
Veille scientifique et exploration des architectures état-de-l'art en traitement automatique de la parole, du langage et de l'audio (ASR, diarisation, NLP, MIR, modèles de fondation audio, etc.)
-
Constitution, annotation et qualification de corpus d'entraînement et d'évaluation, en lien avec les équipes éditoriales, musicales et documentaires
-
Entraînement, fine-tuning et évaluation de modèles d'apprentissage profond pour les cas d'usage prioritaires comme la transcription, la recherche sémantique, ou l’extraction de métadonnées
-
Définition de protocoles d'évaluation rigoureux : métriques objectives, tests d'écoute, mesure des biais, robustesse aux conditions réelles d'antenne et de production
-
Livraison et échanges avec les équipes qui industrialisent les algorithmes : empaquetage, aide au monitoring – notamment pour le calcul du drift -, versionnement, documentation des modèles et des données
Collaboration et accompagnement
-
Recueil et formalisation des besoins avec les porteurs de besoins, les chefs de projet et les directions concernées (plateforme Radio France, chaînes, Direction de la Documentation, etc.)
-
Co-construction des cas d'usage et démonstrateurs avec les équipes éditoriales et techniques, et accompagnement de la transition vers le produit
-
Vulgarisation des résultats et restitutions auprès de publics non techniques : démonstrations, ateliers, supports pédagogiques
-
Contribution à la documentation méthodologique de l'équipe : fiches modèles, fiches données, journaux d'expérimentation, guidelines d'évaluation
Veille, communauté de pratiques et rayonnement
-
Veille active sur les publications scientifiques, les bibliothèques open source pertinentes et les conférences de référence (Interspeech, ISMIR, ACL, etc.)
-
Animation et contribution à la communauté de pratique data et IA de Radio France ; acculturation des équipes aux enjeux de l'IA appliquée au NLP et à l'audio
-
Valorisation des travaux de l'équipe par des billets de blog, articles, podcasts, meetups et interventions en conférences professionnelles ou académiques
-
Participation aux groupes de travail des acteurs de l'audiovisuel public français et international : INA, France Télévisions, Arte, FMM, membres de l'EBU (notamment AI and Data Initiative), BBC R&D, etc.
France, Ile-de-France, Paris (75)
Maison de la Radio, Paris 16
- Diplôme supérieur (Bac +5) : Master ou diplôme d'ingénieur en Data Science, IA, Informatique, Traitement du Signal, Statistiques ou domaine équivalent
- Expérience avérée en Data Science appliquée à des problématiques de traitement automatique du langage naturel et de l'audio
- Expérience dans le développement et l'évaluation de modèles de Machine Learning et Deep Learning
- Bonne maîtrise de Python et des principaux frameworks d'IA (PyTorch, TensorFlow, Hugging Face)
- Connaissances en traitement automatique de la parole (ASR), traitement automatique du langage naturel (NLP) ou analyse audio
- Esprit analytique et scientifique avec une expérience de 3 à 5 ans minimum en R&D, idéalement dans les médias ou la recherche appliquée
- Proactivité et capacité d'organisation
- Bonne communication et capacité d'adaptation pour évoluer dans un environnement pluridisciplinaire
Intérêt pour les médias, la culture, l'information, les nouvelles technologies et l'IA et le service public
Master 2, DEA, DESS, ingénieur