Le Modern Data Stack : Comprendre et exploiter une révolution technologique

Smart Bees présente le Modern Data Stack
Logo Profil writer Smart Bees
Par Gauthier Haicault
Dernière modification le 21 Juin, 2024

Tout le monde parle aujourd'hui du Modern Data Stack (MDS). Travaillant en tant que Consultant Analytics depuis plusieurs années, j’ai commencé à mettre en place de nombreux systèmes utilisant les différentes technologies comprises dans ce MDS. Mais la première fois que j'ai entendu parler du "Modern Data Stack", c’était plus récemment.

Dans cet article, je veux montrer ma compréhension du terme Modern Data Stack et pourquoi il est vraiment important pour les entreprises aujourd’hui. 

Sommaire :

  • Qu'est-ce que le Modern Data Stack ?
  • Pourquoi le Modern Data Stack est-il "moderne" ?
  • Le futur du Modern Data Stack

1. Qu'est-ce que le Modern Data Stack ?

La définition la plus générale (et peut-être la plus floue) du Modern Data Stack est qu'il s'agit d'un ensemble d'outils construits autour d'un entrepôt de données (ou data warehouse) pour simplifier l'intégration des données.

Vous avez sans doute déjà lu mes articles sur les CDP Composable ! Il s’agit d’une pièce maîtresse d’une MDS. L’idée derrière le Modern Data Stack est de faire gagner du temps à vos ingénieurs, vos data analyst et à vos équipes marketing. Le point à retenir, dans un Modern Data Stack, l'intégration des données consiste à regrouper des données provenant de différentes sources, puis à les analyser et les activer ! 

Fonctionnalités du Modern Data Stack

  • Collecte de la donnée : Collecte les données de diverses sources (généralement avec la logique d’ETL que nous allons voir un peu plus bas).
  • Entrepôt de données centralisé : Stocke les données de diverses sources.
  • Transformation des données : Nettoie et transforme les données brutes en informations exploitables.
  • Activation des données : Fournit des données bien modélisées pour les activer dans vos outils

2. Pourquoi le Modern Data Stack est-il "moderne" ?

Pourquoi “moderne” ? C’est encore du marketing ça … En réalité, ce terme a été popularisé par des entreprises comme Fivetran et dbt. Si je fais un peu d’histoire, le terme "Modern Data Stack" est devenu courant après 2020, notamment grâce aux discours et articles de figures influentes comme Tristan Handy, PDG de dbt.

Le développement du Modern Data Stack est donc divisé en plusieurs périodes marquées par des avancées technologiques et des changements dans la gestion des données.

Pourquoi mettre en place un Modern Data Stack ?

Pour comprendre pourquoi nous avons besoin d'un Modern Data Stack pour son entreprise, il est essentiel de se concentrer sur les données elles-mêmes plutôt que sur la technologie. L'essence du Modern Data Stack est de transformer la manière dont les entreprises utilisent la technologie pour gérer leurs données.

L'un des principaux changements apportés par le Modern Data Stack est le passage de l'ETL (Extract, Transform, Load) à l'ELT (Extract, Load, Transform). Cette nouvelle approche permet de simplifier la gestion des données en déplaçant la transformation des données directement à l'intérieur de l'entrepôt de données.

Différence entre ETL et ELT

  • ETL : Les données doivent être extraites, transformées, puis chargées dans l'entrepôt de données.
  • ELT : Les données sont extraites et chargées dans l'entrepôt de données, puis transformées à l'intérieur de celui-ci.

Avantages de l'ELT

  • Simplicité : Réduit la complexité de la gestion des pipelines de données.
  • Préservation des données : Permet de stocker toutes les données brutes dans l'entrepôt, éliminant les problèmes de perte de données.

Et maintenant, on retrouve la technologie de reverse ETL ! J’y consacre un article complet que vous pouvez lire via le lien. Grâce à celui-ci, vous pouvez activer votre donnée transformée dans les différents outils marketing que vous utilisez au sein de votre entreprise.

3. Le futur du Modern Data Stack

L'idée d'un système unique capable de tout faire (traitement opérationnel, analytique, en flux, visualisation des données, partage des données, gouvernance des données, etc.) est séduisante, mais il est peu probable qu'un tel système devienne la norme à court terme. Les entreprises préfèrent généralement des solutions spécialisées qui répondent mieux à leurs besoins spécifiques.

Smart Bees présente le Modern Data Stack

Dans le Modern Data Stack, l’idée est de construire la suite d’outils autour de votre entrepôt de données qui correspond le mieux à vos besoins. La construction de celui-ci peut également se faire étape par étape et pas uniquement d’un coup. Pour les entreprises en croissance, ça vous permet d’avancer des coûts petit à petit au lieu de partir sur des solutions packagées jouant le rôle du Modern Data Stack. 

Pour conclure

Le Modern Data Stack révolutionne la manière dont les entreprises gèrent leurs données, en simplifiant la gestion et en réduisant les coûts. Cette approche permet aux entreprises de se concentrer davantage sur les données elles-mêmes plutôt que sur les logiciels. Bien que le Modern Data Stack continue d'évoluer rapidement, il représente déjà un changement significatif par rapport aux méthodes de gestion des données du passé.

Si vous souhaitez échanger sur ce sujet, n’hésitez pas à nous contacter chez Smart Bees

FAQ

Qu'est-ce que le Modern Data Stack ?

Le Modern Data Stack est un ensemble de technologies cloud-native conçu pour collecter, stocker, transformer et activer les données d'une organisation. Il repose sur des outils spécialisés et modulaires : un data warehouse cloud (BigQuery, Snowflake, Redshift), un outil d'ingestion (Fivetran, Airbyte), un outil de transformation (dbt), et des outils d'activation (Reverse ETL, CDP, BI). Contrairement aux architectures traditionnelles, chaque brique est interchangeable.

Quels sont les composants clés du Modern Data Stack ?

Le Modern Data Stack s'articule autour de quatre couches : l'ingestion des données (Fivetran, Airbyte, Stitch), le stockage dans un data warehouse cloud (BigQuery, Snowflake, Databricks), la transformation avec dbt (data build tool) pour nettoyer et modéliser les données, et l'activation via des outils de BI (Looker, Metabase), de Reverse ETL (Hightouch, Census) ou de CDP (Segment).

Quels sont les avantages du Modern Data Stack par rapport aux architectures traditionnelles ?

Le Modern Data Stack offre une scalabilité quasi illimitée sans gestion d'infrastructure, des coûts à l'usage plutôt que des licences fixes, une meilleure séparation des responsabilités entre les équipes (data engineers, analysts, marketers), et une vitesse de déploiement bien supérieure. Il permet aussi de centraliser toutes les données dans un seul entrepôt qui sert de source de vérité partagée.

Le Modern Data Stack est-il réservé aux grandes entreprises ?

Non. Si les premières implémentations visaient les scale-ups et grandes entreprises, les coûts ont fortement baissé. Une PME avec quelques sources de données peut aujourd'hui déployer un Modern Data Stack fonctionnel avec BigQuery (gratuit jusqu'à 10 Go), Airbyte open-source, dbt Cloud (gratuit pour un développeur) et Metabase. L'investissement principal est humain : il faut un minimum de maturité data pour en tirer parti.

Quelle est la différence entre un data warehouse et un data lake dans le Modern Data Stack ?

Un data warehouse stocke des données structurées et prêtes à l'analyse (schéma défini). Un data lake stocke des données brutes dans tous les formats (structuré, semi-structuré, non-structuré). Le Modern Data Stack moderne tend vers la "data lakehouse" — une architecture hybride qui combine la flexibilité du data lake et les performances du data warehouse, comme le propose Databricks ou BigQuery avec ses capacités d'ingestion de données non-structurées.

Comment le Modern Data Stack s'articule-t-il avec une CDP et le marketing ?

Le Modern Data Stack et la CDP sont complémentaires. Le data warehouse centralise toutes les données (offline, CRM, analytics) et les transforme. Le Reverse ETL (Hightouch, DinMo) extrait ensuite ces données transformées du warehouse pour les pousser vers les outils marketing (Google Ads, Meta, HubSpot). La CDP peut jouer le rôle du Reverse ETL tout en ajoutant la résolution d'identité et la gestion des profils temps réel.