Data Scientist confirmé (H/F/X)

À propos

Qwant est un moteur de recherche développé et hébergé en Europe, qui respecte ses utilisateurs.

Depuis sa création, Qwant tient un engagement fort : ne jamais revendre les données personnelles de ses utilisateurs, tout en offrant une expérience de recherche performante et adaptée aux usages du quotidien.

Qwant repense également les règles de la recherche web grâce à sa fonctionnalité phare basée sur l’IA, la Réponse Flash. Directement intégrée au moteur de recherche, cette intelligence artificielle permet de fournir des réponses courtes, précises et instantanées à de nombreuses questions, sur une grande variété de sujets : actualités, culture, sport, informations administratives… le tout gratuitement et dans le respect de la vie privée.

En parallèle, Qwant développe, via son partenariat stratégique avec le moteur de recherche allemand Ecosia, son propre index de recherche baptisé Staan. Cette technologie de search 100 % européenne permet aux moteurs de recherche, mais aussi aux développeurs et aux entreprises, de trouver et d’exploiter les contenus les plus récents​ et pertinents du web.

Descriptif du poste

En tant que Data Scientist chez Qwant, vous transformerez des problématiques complexes en solutions opérationnelles qui améliorent directement l’expérience utilisateur et les indicateurs clés de nos produits.

En étroite collaboration avec les autres profils Data, les ML Engineers, les Product Managers et les équipes Backend, vous êtes en charge de tout le cycle de vie des solutions que vous mettez en place : découverte, mise en œuvre, gestion de projet, observabilité et monitoring de la qualité, maintenance et évolutions.

Notre stack cible (Data Platform, Iceberg, MLOps) est en cours de construction. Si vous cherchez un système où tout est déjà parfait et aseptisé, ce poste n'est pas pour vous.

Nous cherchons quelqu'un qui n'a pas peur de mettre les mains dans le cambouis avec nous pour finir de construire ces pipelines propres. Si vous voulez être l'un des architectes de cette bascule tech, résoudre des problèmes de plomberie data complexes et avoir un impact massif sur un produit souverain, vous allez vous amuser …

Dans ce rôle, vous serez amené(e) à :

  • Piloter des projets de bout en bout : gérer l’intégralité du cycle de vie des projets, de la phase de découverte et d’analyse des besoins jusqu’au déploiement, au monitoring de la performance (business et technique) et à la maintenance.

  • Concevoir et déployer des modèles : concevoir, construire et mettre en production des modèles de Machine Learning afin d’améliorer directement nos produits : ranking, compréhension des requêtes et des documents, extraction de signaux, génération et fine-tuning d’embeddings.

  • Automatiser les capacités internes : mettre en œuvre des solutions intelligentes pour automatiser certains processus, comme le monitoring de la qualité en temps réel ou l’utilisation de LLMs pour l’annotation et l’évaluation (ex. : LLM judges).

  • Collaborer à 360° : travailler au sein de l’équipe Data et en étroite collaboration avec les ML Engineers (industrialisation), les Software Developers (intégration) ainsi que les équipes DevOps/Infra (scalabilité).

  • Contribuer à la stratégie produit et business : agir en véritable partenaire en utilisant votre expertise data et votre vision business afin d’éclairer les décisions et contribuer à la roadmap produit.

Profil recherché

Vous ne vous reconnaissez pas à 100 % dans les critères ci-dessous ? Aucun problème, envoyez quand même votre CV ! Tous les critères ne sont pas éliminatoires : votre passion, votre curiosité et votre motivation nous aideront à vous faire grandir 😉

  • Vous justifiez d’au moins 3 ans d’expérience en Data Science, avec une expérience concrète de mise en production de modèles ayant un impact réel.

  • Vous avez une approche pragmatique et orientée “problem solving”. Vous savez qu’un pipeline de monitoring robuste et une donnée de qualité sont souvent plus importants que la complexité algorithmique.

  • Vous disposez de solides bases en Search (Information Retrieval, ranking, NLP) ou dans des domaines à forte volumétrie / faible latence comme la recommandation ou les ads.

  • Vous maîtrisez parfaitement Python, SQL ainsi que l’écosystème Machine Learning (scikit-learn, XGBoost, PyTorch, Transformers).

  • Vous êtes à l’aise sur l’ensemble du cycle de vie ML : conception, déploiement et monitoring de modèles via MLFlow ou des outils équivalents.

Bonus appréciés

  • Expérience avec notre stack principale : Kubernetes, Kafka, Doris, Iceberg, Vespa AI

  • Expérience avec PySpark

  • Expérience dans la création d’applications de data visualisation (Streamlit, Dash)

Stack technique

  • Index et ranking déployés sur Vespa AI

  • Datasets multimodaux de plusieurs centaines de Gb (pour des gradients boosting trees aux modèles de langage)

  • Training sur cluster Kube, distribué sur des machines multi-GPUs

  • Tracking & registry: MLFlow

  • Logging: In-house data platform (Kafka, Iceberg, Doris, Metabase)

Process de recrutement

Nous vous proposons un premier appel de 45 minutes avec un membre de l’équipe RH pour faire votre connaissance et vous présenter le poste.

Puis:

  1. Entretien technique et culturel (1h) - Échange avec un(e) Engineering Manager.

  2. Étude de cas technique (1h30) - Échange technique avec les DS de l’équipe

  3. Entretien final dans nos locaux (30 min) - Avec notre CTO.

Informations complémentaires

  • Type de contrat : CDI
  • Lieu : Paris
  • Expérience : > 3 ans
  • Télétravail partiel possible