L'or du 21ème siècle ?

Il y a une croyance forte que la Data serait l'or du 21ème siècle, ce qui d'une certaine manière est vrai. Après l'or métal, après l'or noir (le pétrole), la Data est un moteur essentiel de l'économie moderne.

De là à imaginer qu'il suffirait d'accumuler des données pour être riche, il n'y a qu'un pas. Il n'est donc pas rare qu'une stratégie Learning Data commence par ce type d'injonction :

Collectons un maximum de données, nous verrons plus tard comment les exploiter !

Le problème avec ce type de démarche, c'est que l'on accumule des grandes quantités de données sans se préoccuper de leur qualité, ce qui revient à enfouir des paillettes d'or sous une montagne de sable. Certains utilisent l'expression "Garbage Data" qui se passe de traduction.

fallon-michael-LC2HTwYENTs-unsplash


La qualité des données en danger

Dans une stratégie Learning Data, la qualité des données est essentielle.

  • Les traces d'apprentissage doivent être normalisées. Elles doivent adopter un format commun, indépendamment des outils pédagogiques utilisés, ce qui peut nécessiter des adaptations en amont ou des traitements correctifs en aval.

  • Les données collectées doivent être complètes et justes, de manière à refléter la réalité des événements, sans la biaiser. Là encore, cela nécessite des contrôles en amont et parfois des adaptations en aval.

  • Les données doivent être nettoyées, de manière à éliminer le "bruit" qui pourrait résulter de certaines tâches. Par exemples, les traces générées par un instructeur construisant et testant son cours doivent être éliminées pour ne pas biaiser les statistiques de consultation.

Bref, garantir la qualité des données nécessite un certain degré d'exigence et un travail conséquent. Cet aspect est souvent négligé lorsque l'on décide de collecter des traces tous azimuts. Les conséquences apparaitront bien plus tard, au moment de l'exploitation des données.


Difficultés techniques

J'entends parfois dire que gérer des gros volumes de données n'est plus un problème d'un point de vue technique. Le stockage est de moins en moins coûteux et on dispose aujourd'hui d'architectures "élastiques", pouvant s'étendre à l'infini ou presque.

C'est en partie vrai à condition d'être bien armé techniquement et budgétairement. Car gérer des gros volumes de données ne se limite pas à la question du stockage. Il faut aussi avoir une réflexion sur le flux des données et sur le traitement des données.

Le flux des données, c'est leur circulation au travers d'une infrastructure informatique, d'un système à un autre. Le "schéma de circulation" est plus ou moins complexe en fonction de la nature de votre écosystème. Plus les volumes grossissent, plus les risques d'embouteillages sont importants. Le trafic doit être "monitoré" et les "tuyaux" correctement dimensionnés.

Le traitement des données est quant à lui nécessaire pour valoriser les données accumulées. Là encore, plus les volumes sont importants, plus les choses se compliquent. Séparer le bon grain de l'ivraie devient coûteux en temps et en puissance de calcul.

En résumé, on n'a rien sans rien. Gérer de gros volumes de données nécessite des moyens techniques et budgétaires adaptés.


Le mythe du Big Data en formation

Le terme "Big Data" n'est pas nouveau, mais il a pris de l'ampleur avec l'avènement des réseaux sociaux. Facebook, Google, Amazon et autres géants du numérique ont fait la preuve que l'on pouvait collecter des volumes considérables de données et en tirer profit en s'appuyant sur des algorithmes performants, parfois dotés d'intelligence artificielle (IA).

Ce succès en fait rêver plus d'un dans le monde de la formation, et je pense aussi que de très belles applications sont à imaginer dans ce domaine. Mais avant de s'emballer, il faut bien comprendre les fondements d'une telle approche et vérifier que des conditions favorables soient réunies.

Qu'est ce qui fait la magie d'un réseau social ?

  • Une seule plateforme ;
  • Un nombre limité d'interactions (poster, liker, commenter, partager, etc.) ;
  • Des 100aines de millions d'utilisateurs avec un même objectif : exister.

Qu'est ce qui caractérise un dispositif de formation professionnelle ?

  • Une palette d'outils variée (LMS, contenus, Webconf, Serious Games, etc.) ;
  • Des 100aines d'interactions possibles ;
  • Des formations conçues selon des approches pédagogiques très variées ;
  • Un public cible très divers, poursuivant des objectifs pédagogiques parfois très spécifiques.

En résumé

Un écosystème pédagogique est infiniment plus complexe qu'un réseau social du point de vue des données collectées. La difficulté n'est d'ailleurs pas vraiment liée aux volumes de données, mais plus à leur disparité et à la diversité des contextes pédagogiques dans lesquels elles s'inscrivent.


Les questions éthiques

La massification des données collectées soulève à mes yeux au moins 2 sujets sérieux sur le plan éthique : l'écologie et la gestion des données personnelles.

Préoccupations écologiques

Le sujet est rarement abordé mais le stockage massif des données n'est pas sans un certain coût écologique. Vos tera-octets de data doivent bien être hébergés quelque part, sur des serveurs refroidis à grands coups de climatiseurs, où dans un pays proche du cercle polaire. Soyez donc sobres aussi avec vos données : les pingouins vous remercieront.

Gestion des données personnelles

L'idée de collecter massivement des données d'apprentissage, donc des données personnelles, sans avoir défini un usage clair, va à l'encontre de la règlementation sur la protection des données personnelles (RGPD).

Comment (ré)concilier data et éthique ?
La crainte d’un usage abusif des données personnelles peut être un frein au développement des Learning Data. Dès lors, comment naviguer entre un cadre règlementaire exigeant et une résistance probable des utilisateurs ?

Du Big Data au Smart Data ?

L'objet de cet article n'est pas de nier le potentiel du Big Data en formation. Dès lors que l'on peut collecter des données à grande échelle tout en garantissant un certain niveau de qualité, avec des moyens techniques adaptés, des portes s'ouvrent.

Mais je ne suis pas sûr que cette stratégie soit applicable dans la majorité des cas. Il faut donc une alternative aux approches quantitatives des Learning Data, que certains désignent sous le terme Smart Data, et que je résumerais en 2 points :

  • Ne collecter que les données utiles et légitimes d'un point de vue éthique. Le choix des données à collecter résulte donc d'une réflexion poussée.

  • Garantir la qualité de ces données, c'est à dire leur capacité à décrire de manière juste et cohérente des expériences d'apprentissage.