
Tout le monde parle aujourd'hui du Modern Data Stack (MDS). Travaillant en tant que Consultant Analytics depuis plusieurs années, j’ai commencé à mettre en place de nombreux systèmes utilisant les différentes technologies comprises dans ce MDS. Mais la première fois que j'ai entendu parler du "Modern Data Stack", c’était plus récemment.
Dans cet article, je veux montrer ma compréhension du terme Modern Data Stack et pourquoi il est vraiment important pour les entreprises aujourd’hui.
Sommaire :
La définition la plus générale (et peut-être la plus floue) du Modern Data Stack est qu'il s'agit d'un ensemble d'outils construits autour d'un entrepôt de données (ou data warehouse) pour simplifier l'intégration des données.
Vous avez sans doute déjà lu mes articles sur les CDP Composable ! Il s’agit d’une pièce maîtresse d’une MDS. L’idée derrière le Modern Data Stack est de faire gagner du temps à vos ingénieurs, vos data analyst et à vos équipes marketing. Le point à retenir, dans un Modern Data Stack, l'intégration des données consiste à regrouper des données provenant de différentes sources, puis à les analyser et les activer !
Pourquoi “moderne” ? C’est encore du marketing ça … En réalité, ce terme a été popularisé par des entreprises comme Fivetran et dbt. Si je fais un peu d’histoire, le terme "Modern Data Stack" est devenu courant après 2020, notamment grâce aux discours et articles de figures influentes comme Tristan Handy, PDG de dbt.
Le développement du Modern Data Stack est donc divisé en plusieurs périodes marquées par des avancées technologiques et des changements dans la gestion des données.
Pourquoi mettre en place un Modern Data Stack ?
Pour comprendre pourquoi nous avons besoin d'un Modern Data Stack pour son entreprise, il est essentiel de se concentrer sur les données elles-mêmes plutôt que sur la technologie. L'essence du Modern Data Stack est de transformer la manière dont les entreprises utilisent la technologie pour gérer leurs données.
L'un des principaux changements apportés par le Modern Data Stack est le passage de l'ETL (Extract, Transform, Load) à l'ELT (Extract, Load, Transform). Cette nouvelle approche permet de simplifier la gestion des données en déplaçant la transformation des données directement à l'intérieur de l'entrepôt de données.
Différence entre ETL et ELT
Avantages de l'ELT
Et maintenant, on retrouve la technologie de reverse ETL ! J’y consacre un article complet que vous pouvez lire via le lien. Grâce à celui-ci, vous pouvez activer votre donnée transformée dans les différents outils marketing que vous utilisez au sein de votre entreprise.
L'idée d'un système unique capable de tout faire (traitement opérationnel, analytique, en flux, visualisation des données, partage des données, gouvernance des données, etc.) est séduisante, mais il est peu probable qu'un tel système devienne la norme à court terme. Les entreprises préfèrent généralement des solutions spécialisées qui répondent mieux à leurs besoins spécifiques.

Dans le Modern Data Stack, l’idée est de construire la suite d’outils autour de votre entrepôt de données qui correspond le mieux à vos besoins. La construction de celui-ci peut également se faire étape par étape et pas uniquement d’un coup. Pour les entreprises en croissance, ça vous permet d’avancer des coûts petit à petit au lieu de partir sur des solutions packagées jouant le rôle du Modern Data Stack.
Le Modern Data Stack révolutionne la manière dont les entreprises gèrent leurs données, en simplifiant la gestion et en réduisant les coûts. Cette approche permet aux entreprises de se concentrer davantage sur les données elles-mêmes plutôt que sur les logiciels. Bien que le Modern Data Stack continue d'évoluer rapidement, il représente déjà un changement significatif par rapport aux méthodes de gestion des données du passé.
Si vous souhaitez échanger sur ce sujet, n’hésitez pas à nous contacter chez Smart Bees.
Le Modern Data Stack est un ensemble de technologies cloud-native conçu pour collecter, stocker, transformer et activer les données d'une organisation. Il repose sur des outils spécialisés et modulaires : un data warehouse cloud (BigQuery, Snowflake, Redshift), un outil d'ingestion (Fivetran, Airbyte), un outil de transformation (dbt), et des outils d'activation (Reverse ETL, CDP, BI). Contrairement aux architectures traditionnelles, chaque brique est interchangeable.
Le Modern Data Stack s'articule autour de quatre couches : l'ingestion des données (Fivetran, Airbyte, Stitch), le stockage dans un data warehouse cloud (BigQuery, Snowflake, Databricks), la transformation avec dbt (data build tool) pour nettoyer et modéliser les données, et l'activation via des outils de BI (Looker, Metabase), de Reverse ETL (Hightouch, Census) ou de CDP (Segment).
Le Modern Data Stack offre une scalabilité quasi illimitée sans gestion d'infrastructure, des coûts à l'usage plutôt que des licences fixes, une meilleure séparation des responsabilités entre les équipes (data engineers, analysts, marketers), et une vitesse de déploiement bien supérieure. Il permet aussi de centraliser toutes les données dans un seul entrepôt qui sert de source de vérité partagée.
Non. Si les premières implémentations visaient les scale-ups et grandes entreprises, les coûts ont fortement baissé. Une PME avec quelques sources de données peut aujourd'hui déployer un Modern Data Stack fonctionnel avec BigQuery (gratuit jusqu'à 10 Go), Airbyte open-source, dbt Cloud (gratuit pour un développeur) et Metabase. L'investissement principal est humain : il faut un minimum de maturité data pour en tirer parti.
Un data warehouse stocke des données structurées et prêtes à l'analyse (schéma défini). Un data lake stocke des données brutes dans tous les formats (structuré, semi-structuré, non-structuré). Le Modern Data Stack moderne tend vers la "data lakehouse" — une architecture hybride qui combine la flexibilité du data lake et les performances du data warehouse, comme le propose Databricks ou BigQuery avec ses capacités d'ingestion de données non-structurées.
Le Modern Data Stack et la CDP sont complémentaires. Le data warehouse centralise toutes les données (offline, CRM, analytics) et les transforme. Le Reverse ETL (Hightouch, DinMo) extrait ensuite ces données transformées du warehouse pour les pousser vers les outils marketing (Google Ads, Meta, HubSpot). La CDP peut jouer le rôle du Reverse ETL tout en ajoutant la résolution d'identité et la gestion des profils temps réel.