vendredi 14 février 2020

La fabrique de l'information issue des Big Data nous concerne !

La collecte et l'utilisation des données dans les Big Data et les lacs de données (voir article précédent) provoque un renversement complet de l'information, son traitement et sa production.

En quoi cela nous concerne ?

Nous allons le voir ici.

Ou nous subissons le "prêt-à-consommer" passivement avec une industrie de l'information robotisée au service des grands groupes qui élaborent leurs mixtures dans le plus grand secret.

Ou nous exigeons comme citoyens éclairés que cessent ces secrets de fabrication, que nous connaissions la "composition" et la "fabrication" de l'information qu'on nous sert.

Mieux encore, que nous soyons capables de décider quelle information nous voulons et que nous puissions décider de comment elle est faite.



Les informations collectées dans les Big Data et les Lakes Data vont devenir un nouveau monde d'information incontournable... contrôlé comment et par qui ?


L'article précédent "Lacs de données,  Data Lake, organisation et exploitation des Big Data" montrait l'évolution extraordinaire des technologies de l'information, le renversement complet de la production de l'information.

Les bases de données réceptacles spécialisés d'information sont devenues des Big Data.

Les Big Data sont "des ensembles de données devenus si volumineux qu'ils dépassent l'intuition et les capacités humaines d'analyse et même celles des outils informatiques classiques de gestion de base de données ou de l'information" (Wikipédia).

"L’explosion quantitative (et souvent redondante) de la donnée numérique contraint à de nouvelles manières de voir et analyser le monde. De nouveaux ordres de grandeur concernent la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données.

Les perspectives du traitement des big data sont énormes et en partie encore insoupçonnées.
On évoque souvent de nouvelles possibilités d'exploration de l'information."

Devant l'imprévisibilité de l'utilisation future des données collectées, leur organisation a été abandonnée volontairement.

Les lacs de données sont une façon d'accumuler les données de façon la plus brute possible, sans préjuger de leur utilisation future.

C'est un renversement complet du stockage des données non plus en perspective d'utilisation préconçue, mais au contraire contre toute forme de présupposé d'utilisation.

On peut penser qu'il s'agit là d'une nouvelle technique et peut-être d'une nouvelle science ?


Et pour nous personnellement n'est-ce pas la naissance d'une nouvelle forme d'information et de connaissance à laquelle il faut se préparer ?


Je pense que ce phénomène est assez rapide et doit nous motiver pour une autre approche de la connaissance.

Il y a et il y aura toujours des "informations" :
Comme le définit Wikipédia l'information est la mise en forme de constat de choses pratiques constatées par des individus. Tout au moins dans sa définition d'origine :

"Le mot information est parfois utilisé pour théoriser des choses pratiques relevant en réalité de la perception : un individu a faim parce que son estomac l'a informé de son besoin. 
La chaleur d'une flamme l'informe du risque de brûlure. 
Il est informé de la visite prochaine d'un ami. L'information peut être parlée ou écrite et consiste à « savoir ce qui se passe », qu'il s'agisse de l'état du monde ou dans la vie d'un interlocuteur, ce qu'on n'a ni vu, ni entendu directement".

Mais, au-delà de ces informations "brutes", il y des formes plus évoluées d'information comme le récit historique.
Théoriquement, le récit historique n'est pas un compte rendu rigoureux de ce qui s'est passé dans l'histoire. C'est, au contraire, une forme très élaborée culturellement, politiquement qu'on réécrit d'ailleurs régulièrement.

Dans la création des Big Data et surtout des lacs de données, une connaissance se créée et se génère par de multiples recherches, recoupement et rapprochement des "informations" stockées.

Ces informations ne seront corrélables à de simples constats humains.

Comment, ensuite, valider la qualité d'une information ainsi construite ?


Quand on sait la valeur des références à des sources pour valider des informations, on peut se demander quel sera le statut de ces informations surtout à l'époque des "vérités alternatives" et des fake-news".


Ce ne seront plus les sources qui valideront l'information mais l'algorithme qui l'a générée


Impossible de citer "une" ou "des sources" dans un lac de données.

Dans une enquête statistique c'est la méthode qui valide le résultat


Pour amorcer une réponse ou, ni moins, une réflexion sur ce sujet, faisons l'analogie avec le résultat d'une enquête :

Wikipédia (encore lui) explique qu'une enquête quantitative, qui nous délivre les chiffres, les pourcentages qu'on nous met sous le nez, est en fait précédée d'une enquête qualitative.

"Elles sont complémentaires et n’ont pas le même objectif. 
L’étude qualitative met en avant les comportements et opinions de certains consommateurs, alors que l’étude quantitative mesure la quantité de consommateurs qui ont un certain (même) comportement, afin de se faire une idée concrète de la pensée générale. 

L'étude quantitative est donc un dénombrement et une validation des hypothèses précédemment définies dans l'étude qualitative


Il n'est cependant pas rare d'effectuer seulement une étude quantitative pour des raisons financières".

Cette description est doublement intéressante :

1°) elle met en évidence qu'une étude quantitative produit en quelque sorte un résultat présupposé par l’étude qualitative. Autrement dit : l’étude qualitative analyse et permet de comprendre, l'étude quantitative produit la confirmation qu'on attend.
Non à l'info "FastFood"
2°) que vaut une étude quantitative sans étude qualitative ? 
Cela me rappelle la boutade de Woody Allen : "La réponse est oui, mais quelle était la question ?".

Le rédacteur de Wikipédia qui écrit : "Il n'est cependant pas rare d'effectuer seulement une étude quantitative pour des raisons financières" est bien gentil quand il n'évoque que des questions financières pour justifier le fait de ne faire qu'une étude quantitative !

Une autre citation d'un homme politique français, Jacques Duhamel était bien placé pour dénoncer que : "Si les chiffres ne mentent pas, il arrive que les menteurs chiffrent

Autrement dit : c'est la façon de "produire" l'information qui en donne la valeur ou permet de l'invalider.

Ce n'est pas nouveau, le processus humain de la connaissance fonctionne également ainsi et est perturbé par les biais cognitifs


Les biais cognitifs sont des erreurs, des distorsions de la perception d'une information qui provoquent des déviations de la pensée rationnelle.

Ce qui cause les biais cognitifs ont de multiples origines : d'attention, sensorimoteurs, liés à la mémoire, aux jugements et pré-jugés, au raisonnement et à la personnalité.

Quand une machine raisonne avec ce qu'on appelle son intelligence artificielle, elle exécute un programme que reflète les nombreux biais cognitifs des concepteurs de ces programmes ou des personnes auprès desquelles elle collecte ses informations.

On se rappelle qu' "À peine lancée, une intelligence artificielle de Microsoft dérape sur Twitter" article du Monde : "L’entreprise américaine a lancé Tay, un « chatbot » censé discuter avec des adolescents sur les réseaux sociaux. Mais des propos racistes se sont glissés dans ces échanges".

Ce n'est donc pas parce qu'une machine exécute des instructions humaines que celles-ci vont devenir "justes" et rationnelles si elles ne le sont pas à l'origine.

"Produire" de l'information à partir d'un lac de données : la puissance des algorithmes


Pour comprendre techniquement comment produire de l'information à partir de données, c'est très simple : interrogez le moteur de recherche de votre smartphone.

Même question et réponses différentes


Constatez aussi que pour certaines questions identiques un peu générales, la même question posée par vous sur votre appareil et celle posée par votre voisine sur le sien auront des réponses différentes puisque les réponses prennent en compte le contexte.

Comment peut-on produire de l'information à partir de données contenues dans une base ? 


Pour ceux qui veulent une explication technique, en voici une fournie par l'asp de la MAIF.

Différents "langages" sont utilisés pour programmer la définition des données, leur manipulation et leur interrogation.

Ces langages sont destinés à être utilisés pour programmer des machines, pour dicter une logique d'un travail de conception humain à des machines qui doivent l'exécuter.

Hermétique, incompréhensible, impossible à faire comprendre à d'autres humains ?

Oui, pour le langage destiné aux machines, c'est un travail de spécialiste.
Non, pour la logique de base définissant le travail à faire globalement.

Accepteriez-vous qu'un architecte prétende que vous ne comprenez pas les plans d'exécution de votre future maison pour que vous le laissiez décider seul de ce qu'elle sera ? !!!

Il ne peut pas discuter avec vous du plan d'ensemble pour respecter vos volontés ?

Bien sûr que si !

Prétendre que les programmes, les logiques, les algorithmes ne peuvent être compris du grand public et en premier lieu des personnes concernés est une mascarade.

Ce n'est pas la première fois qu'une profession, et au-delà d'elle ceux qui ont d'immenses intérêts à cultiver le secret, utilisent un jargon, prétextent la complexité pour protéger leurs pouvoirs.

Que faire ?


Deux choses :
  1. se former à comprendre ce qu'est et comment fonctionne les algorithmes. Il ne s'agit pas de technique mais uniquement de logique
  2. combattre avec les associations de consommateurs, de citoyens pour que tout soit expliqué en langage clair, compréhensible par tous
Albert Einstein disait : "Si vous ne pouvez expliquer quelque chose simplement, c’est que vous ne l’avez pas bien compris"

J'ajouterai : "ou c'est que vous voulez cacher quelque chose".


Et vous , qu'en pensez-vous ?