Nous souhaitons offrir une alternative fiable et performante aux grands acteurs du search en étant propriétaire de l'ensemble de la pile technique - de l'hébergement et de l'indexation au ranking et à la diffusion des résultats de recherche.
Nous déployons actuellement une nouvelle version de notre moteur de recherche et lançons de nouvelles fonctionnalités basées sur l'IA et intégrées directement dans l'expérience de recherche.
En plus du français, nous prévoyons d’ajouter l’allemand et l’anglais pour répondre aux besoins de nos partenaires tel qu’Ecosia, et de nos clients.
Afin de supporter cette volumétrie de données, ainsi qu’améliorer nos capacités d’évaluation et d’ingestion, nous allons moderniser notre data platform.
Nous recherchons un(e) Data Engineer expérimenté(e) pour construire la nouvelle génération de notre plateforme de données, au cœur de notre moteur de recherche souverain.
Notre ambition est de refondre notre stack data autour d’une architecture moderne (Modern Data Stack), capable de supporter à grande échelle :
Le crawling à grande échelle du web publique.
Notre index web et image (plusieurs centaines de millions de documents).
Notre tracking utilisateurs (événements front et backend).
Les données de nos partenaires.
Et les besoins avancés de nos équipes produit, IA et engineering.
Cette plateforme jouera un rôle central en tant que source de vérité pour la BI, les analyses, le training de nos algorithmes, l’enrichissement de données (calcul des signaux)...
Il s’agit d’une opportunité rare de bâtir une data platform stratégique à fort impact.
En tant que Data Engineer, vous serez responsable de :
Concevoir et implémenter l’architecture de notre nouvelle data platform (data lake, data warehouse, pipelines de traitement, ingestion temps réel et batch).
Industrialiser l’ingestion de données structurées, et semi-structurées à partir de nos services internes, flux utilisateurs, crawler et partenaires.
Mettre en œuvre un stockage efficace basé sur des formats open standards (Iceberg sur S3) pour optimiser la scalabilité, la gouvernance et la compatibilité analytique.
Construire et maintenir des pipelines robustes de transformation de données (DBT, Spark), compatibles avec les usages BI et ML.
Orchestrer les flux temps réel via Kafka et assurer leur persistance efficace.
Travailler étroitement avec les équipes Data Science, Search, Produit et BI pour exposer la donnée dans des formats exploitables, fiables et documentés.
Mettre en place des bonnes pratiques de data quality, observabilité, versioning, access control et monitoring.
Stack technique :
Cloud & Storage : S3, Iceberg
Traitement batch et streaming : Spark, Kafka
Transformation : DBT
Exploitation et reporting : Clickhouse, Metabase
CI/CD & Infra as Code : Argo, GitLab, Terraform