vendredi 7 février 2020

Lacs de données, Data Lake, organisation et exploitation des Big Data

L'organisation, la structuration des Big Data ne peuvent plus se contenter des modes d'organisation utilisés jusqu’à présent.

Des tableaux type Excel, aux bases de données toutes ces structures de stockage et d'exploitation des données sont maintenant dépassées.

Un nouveau concept est apparu ces dernières années les "lacs de données,  Data Lake".

Ces lacs de données,  ces Data Lake est-ce une mode marketing ou cela répond-il à une situation et un besoin nouveau, pérenne ?




Des quantités phénoménales de données des Big Data 

  • les quantités phénoménales de données ont une croissance exponentielle de 25 à 30% par an (d'après Cisco).
  • ce sont 20 à 30 milliards d'objets connectés qui déverseront leurs données ces prochaines années.

Trois caractéristiques concourent à la complexité de leur stockage :

  • leur quantité
  • la rapidité de collecte et de besoin de l'utiliser
  • la variété des sources de ces données provenant de matériels nouveaux

Le stockage des données a jusqu'à présent été conçu en fonction de leur contenu et leur utilisation

Les bases de données relationnelles stockaient des données :

  • dans des structures précises 
  • facilement disponibles
  • mais malheureusement rigides.

L'exploitation de ces bases de données dépendait complètement de leur organisation


Autrement dit, ce sont les besoins qui doivent être précisés dans une requête pour questionner une base de données.

La grosse différence est qu'une requête informatique est en fait écrite dans un langage très formalisé permettant d'obtenir les données dont les valeurs correspondant à la requête sont vérifiées.

Cela fonctionne très bien mais
  • l'écriture de la requête, 
  • la structure la base de données
  • le résultat 
doivent être très homogènes dans leurs structures.
Aucun ne peut évoluer indépendamment de l'autre.

La modélisation de la base de données dicte donc les limites de son utilisation

Les modèles adoptés pour les bases de données sont structurants.

Les données ne correspondant pas au modèle ne peuvent pas y "entrer".

Les bases de données doivent être restructurées quand de nouveaux besoins apparaissent.
De nombreuses données sont perdues dans les répartitions de restructuration et les coûts de ces opérations sont importants.

Ces modèles rigides adaptés à un usage figé avec des données évoluant peu étaient inadaptés aux nouvelles données apparues sur internet.

Les "entrepôts de données", les "data warehouses" ont centralisé et structuré les données en silos dans des bases opérationnelles

Des modèles en étoile ont été adoptés permettant des exploitations plus variées, plus ou moins fines suivant les besoins.

Mais là encore, cette organisation, si elle permettait des utilisations plus souples, structurait encore les données.
Elle rendait leur réorganisation périodique toujours nécessaire et encore plus difficile et coûteuse.

À l'inverse les lacs de données, les Data Lake ne structurent pas les données

L'image du lac est celle d'une étendue plate, lisse, fluide.

Le grand avantage décrit dans les lacs de données sont leur caractère brut, non-préformaté et qui permet donc de faire évoluer son exploitation sans être limité par un a priori de structuration des données.

L'image serait alors que les informations seraient placées comme sur un disque dur, sans prendre en compte leur contenu, seulement en gérant leurs emplacements pour les retrouver.

La structure des données n'est alors créée qu'au moment de l'analyse.

Ainsi, dans les Data Lake, les sources de données ne sont plus limitées par une organisation préalable 

La conception d'un Data Lake dépend des données recueillies, pas de leur utilisation 

L'architecture adoptée (Haddop) est uniquement une organisation de stockage.
A chaque analyse, une structure particulière est crée avec toutes les données utiles.

Les lacs de données, (les Data Lake) vont-ils remplacer tous les "entrepôts de données", (les "data warehouses") ?

L'inconvénient des lacs de données ce sont les ressources machine consommées à chaque analyse.

Dans le cas d'analyse répétitive, les entrepôts de données ("data warehouses") sont mieux adaptés.

Les deux modèles sont donc complémentaires :
  • les lacs de données, (les Data Lake) pour les analyses dans des milieux évolutifs et fluctuants, pour accélérer des cycles d'innovation : médis et marketiong sont les premiers concernés.
  • les entrepôts de données ("data warehouses") pour les milieux plus stables aux situations répétitives

Les lacs de données, (les Data Lake) ne sont qu'au début de leurs possibilités 

Par principe, un lac de données est une base qui permet toutes les évolutions postérieures et tous les niveaux d'utilisation.

Ce n'est pas une "solution" mais plutôt un "paysage" comme l'écrit l'article de tenfold "Exploiter les lacs de données".

Les données peuvent aussi être utilisées :
  • à la volée
  • en inter-action (voir la base Cassandra exploitée en complément d'Hadoop)
L'élasticité du travail avec un Data Lake est économique, on peut graduer investissement et utilisation.
Les API (Application Programming Interface), ces interfaces de programmation offre des solutions modulaires de communication et d'exploitation des données facilitant et rendant plus économiques les développements d'applications personnalisées.


Qu'est-ce que tenfold :
"Avec des centaines de connecteurs préconstruits, le Tenfold CX Cloud facilite l'intégration des données client".

Conclusion "ouverte"


On va donc vers des "architectures" plus qu'ouvertes, des architectures "floues", par analogie à la logique floue.

D'ailleurs peut-on encore parler d'architectures ?

N'est-ce pas une nouvelle technique, une nouvelle science qui permettra de stocker des données sans les organiser tout en étant capable de les "retrouver", de les exploiter à l'avenir par des méthodes que nous ne connaissons pas encore.

A lire d'urgence :


Mon prochain article "La fabrique de l'information issue des Big Data nous concerne !".
Il est la suite, la conséquence à tirer de la généralisation des Big Data et des lacs de données pour nous personnellement.