Comment peut-on prédire ?

Un système prédictif utilise les données pour essayer de prévoir des événements avant qu'ils ne se produisent. Cela se passe en 2 temps.

  • La première étape est une phase d'apprentissage. Le système analyse les données existantes et en dégage un modèle, c'est à dire un ensemble de tendances, de schémas qui tendent à se répéter, de corrélations entre divers types d'informations, etc.

  • La seconde étape est l'application du modèle sur les données récentes, en quasi temps-réel. Le système part du principe que les mêmes causes produisent les mêmes effets. Il cherche donc dans les données récentes des situations qu'il reconnait et en déduit ce qui devrait théoriquement se produire.

Prenons un exemple. En analysant les données de ces 3 dernières années, le système se rend compte qu'un apprenant qui se connecte de moins en moins sur une période d'un mois a 80% de chances d'abandonner sa formation dans les 5 jours qui suivent. En partant de cette règle, le système est théoriquement en mesure de prédire certains abandons.


Fiabilité des prédictions

Vous l'aurez compris, un système prédictif s'appuie sur des modèles statistiques et fournit des projections dont le degré de fiabilité est variable.

Le terme prédiction reflète d'ailleurs assez mal cette incertitude. Je lui préfère la terminologie utilisée par la météo qui parle plutôt de prévisions associées à un indice de confiance.

Continuons un instant ce parallèle météorologique. Le degré de fiabilité des prévisions est largement dépendant de la qualité des données relevées.

  • Les données doivent être normalisées pour pouvoir être comparées. C'est pourquoi toutes les stations météo respectent les mêmes protocoles de mesure.

  • Les données doivent être les plus complètes possibles. C'est pourquoi les relevés météo se font partout autour du globe, sur terre comme en mer.

  • Les données sont issues d'un même contexte, d'un même environnement : la planète Terre. La planète Mars obéit à un autre modèle.


Des prévisions hasardeuses ?

En formation, les 3 points que j'ai cités plus haut peuvent poser problème.

  • Pour la normalisation, il y a beaucoup à faire. En théorie, l'arrivée d'un standard comme xAPI doit aider. Mais une information techniquement normalisée (ex. une notation ramenée sur 100) peut revêtir un sens très différent en fonction du contexte et de l'outil qui l'a générée (ex. fonctionnement du système de notation).

  • Pour l'exhaustivité des données, on en est très loin. A titre d'exemple, on sait que les facteurs personnels (fatigue, contexte familial, etc) et professionnels (disponibilité, motivation, etc) influencent largement la réussite d'un apprenant. On ne dispose pas de ces données (heureusement). Le modèle est donc très partiel et passera à côté des causes les plus courantes d'échec.

  • Pour le contexte, la formation professionnelle n'a rien d'un environnement homogène dans lequel les situations seraient reproductibles. Une formation de type soft-skills pour un manager et une formation opérationnelle pour un technicien sont aussi différentes que la Terre et Mars d'un point de vue météorologique.

Mettre en place un système prédictif en formation est envisageable, à condition de trouver un cadre propice : focaliser sur un type précis de formation dont la génération des données est maitrisée. Cela réduit les champs d'application.


Des prédictions utiles?

Imaginons un système prédictif à base d'intelligence artificielle disposant de grands volumes de données de qualité, et admettons que les prédictions soient relativement fiables. Le système a parlé :

La probabilité que Marc réussisse cette formation est de 20%.

Sans plus de précision, cette prédiction est totalement inutile. Elle ne permet pas de comprendre les raisons de ce probable échec. Elle ne permet donc pas à un formateur d'agir par anticipation, sauf à recommander à Marc de quitter la formation, ce qui le priverait définitivement de ses 20% de chances.

Rendre une prédiction compréhensible par l'être humain n'a rien d'évident. Un modèle mathématique peut établir des corrélations complexes sans pouvoir les expliquer clairement. C'est un des enjeux de l'IA.

Admettons que notre moteur d'IA soit capable d'expliquer ses prédictions :

La probabilité que Marc réussisse cette formation n'est que de 20% car Marc n'est pas assez assidu aux cours présentiel.

Que doit-on faire de cette information ? Doit-on obliger Marc à assister aux cours présentiel ? Ou bien Marc fait-il parti des 20% d'élèves qui réussissent très bien sans assister aux cours présentiel, grâce à une méthode de travail différente ?

Une fois de plus, l'utilité de la prédiction n'est ici pas évidente. Pour disposer d'un système efficace, les prédictions devraient être accompagnées de modalités d'action qui ont un impact réel sur les résultats.


Réagir plutôt que prédire

Finalement, ce qui compte le plus, ce n'est pas tant de prédire, mais bien de savoir comment réagir face aux prédictions, que cette réaction soit automatisée ou humaine.

La question de la réaction se pose d'ailleurs indépendamment de notre capacité à prédire. La plupart des dispositifs pédagogiques usent (et abusent) des évaluations formatives sous forme de Quiz. L'analyse des notes permet de repérer très simplement les apprenants en difficulté.

Mais cela ne résoud pas la problème. La question centrale reste de savoir comment réagir face à un apprenant en difficulté.

Les données collectées peuvent aider à poser un diagnostic. Une intervention humaine est aussi souhaitable pour confirmer ce diagnostic. Et le diagnostic doit être suivi d'un plan d'action.