Beaucoup d’intelligences artificielles qui partent en production, à l’heure actuelle, enregistrent des scores de prédiction très faibles (de l’ordre de 30%), car on sait qu’elles vont vite s’améliorer. En effet, en quelques semaines ou mois, elles parviennent à s’approprier leur environnement et à atteindre plus de 90% de précision !
Pourtant, certains secteurs ne peuvent se permettre d’attendre aussi longtemps : l’automobile, l’énergie, l’aérospatial se doivent d’offrir directement les meilleures intelligences artificielles. Alors, plutôt que de laisser un humain ou l’environnement apprendre à une machine, pourquoi ne pas laisser des machines s’apprendre entre elles ?
La puissance d’une machine
L’approche classique, lorsque l’on veut entraîner une intelligence artificielle, est de la laisser apprendre par elle-même en essayant d’abord des actions aléatoires, puis en apprenant ce qui rapporte le meilleur gain.
Si cela s’avère être efficace, le temps nécessaire à apprendre certaines actions peut être très long : pour qu’une IA de Snake apprenne à bien jouer, il faut qu’elle se déplace au hasard jusqu’à ramasser la première pomme puis encore quelques unes avant de faire le rapprochement entre pomme et victoire… Ce qui peut prendre plusieurs heures voire jours.
De nombreux ingénieurs et chercheurs se sont alors tournés vers deux choses :
- Le partage de connaissances entre machines
- L’apprentissage « supervisé » par une machine
Partage de connaissances
Généralement, l’intérêt d’avoir plusieurs intelligences artificielles est de pouvoir les personnaliser pour des utilisateurs ou des robots.
Un assistant personnel devra à la fois apprendre à analyser la voix (commun à tous) et à analyser ce que son « maître » dit (spécifique à l’utilisateur). Dans ce type de situation, partager ses connaissances est un avantage indéniable, puisqu’un assistant personnel peut apprendre à répondre à une problématique avant de la rencontrer, pour un peu que quelqu’un d’autre soit déjà passé par là.
Au lieu d’avoir une intelligence artificielle dans le cloud, on a donc une multitude de petites intelligences artificielles qui communiquent entre elles, s’envoient des données pour perfectionner leurs algorithmes. En robotique, cette approche permet sur les chaînes de montage d’avoir des bras articulés toujours plus performants, car une erreur commise (dans une situation exceptionnelle) par l’un ne doit pas être reproduite par les autres.
Que ce soit pour les robots ou pour les humains, plusieurs scientifiques tentent d’analyser les mécaniques qui se cachent derrière cet apprentissage, que ce soit à titre individuel ou à titre collaboratif.
Apprentissage par une machine
Ce cas est très simple : puisque, pour apprendre, une IA a besoin d’exemples, et que laisser un humain remplir les exemples est très long, pourquoi ne pas faire un algorithme qui imite les humains (sans aucune réflexion derrière) pour entraîner une IA à notre place ?
Une machine déjà entraînée peut donc apprendre à son tour à une machine qui ne connait rien, en quelques heures !
Cet apprentissage se rapproche fortement de celui d’un entraînement dans une simulation, puisque l’IA peut expérimenter tout ce qu’elle désire instantanément en demandant à la machine tutrice « ce qu’il se passerait si ».
En plus du gain de vitesse incroyable (imaginez que pour entraîner Alpha Go il faut jouer toutes les parties contre des humains), ce système permet de diversifier le comportement d’une IA, qui peut restructurer son réseau de neurones en ne gardant que « l’essentiel ».
Les conséquences de tels développements sont difficiles à prévoir en revanche, car personne n’a de contrôle sur ce qui est appris et ce qui est oublié. Par exemple, si le nombre de phases d’apprentissage est trop faible, l’IA apprenante peut passer « à côté » de certains cas. Cela peut présenter un risque sur les prédictions suivantes.
Enfin, c’est pour ce type d’apprentissage que le risque d’atteindre la singularité (moment où l’IA devient consciente de son existence) est le plus grand, même si son existence théorique est encore vivement débattue.
Quelques exemples concrets
Commençons par parler de Tesla, la société de voitures électriques d’Elon Musk.
Dotées d’une option d’auto-pilote sur le modèle S, le véhicule est capable de conduire de manière semi-autonome (des versions totalement autonomes sont encore en cours de test).
Depuis 2016, elles sont toutes reliées entre elles via le cloud et tout ce qu’apprend une voiture est instantanément partager avec les autres, grâce à l’algorithme de machine learning embarqué. A titre d’exemple, rapporté par Singularity Hub, à l’origine, elles avaient tendance à mal suivre la ligne dans les virages d’autoroute. Grâce aux utilisateurs qui ont conduit la Tesla et corrigé la trajectoire manuellement, en quelques semaines l’automobile était capable de négocier les courbes d’elle-même à la perfection !
Cependant, cet exemple ne fait pas ressortir toute la puissance de la méthode, puisque cela aura pris des semaines. Notre deuxième exemple sera donc celui des intelligences artificielles négociatrices de Facebook, que l’on a vu dans un précédent article.
Si vous vous souvenez bien, dans un premier temps, une IA basique (algorithme « simple » de deep learning) était entraînée pour imiter des humains dans des échanges d’objets, dont le but était de gagner un maximum.
Ensuite, deux intelligences artificielles avec la méthode de renforcement combattaient en boucle (plusieurs milliers/millions de fois) l’IA basique dans des échanges tirés aléatoirement, jusqu’à devenir très largement meilleures que cette dernière.
Grâce à ce système d’apprentissage, que l’on retrouve aussi chez Google pour l’entraînement d’Alpha Go Zero, les deux dernières IA sont capables de battre n’importe quel humain à plate couture, et ont appris à bluffer ! Le tout, en quelques heures…
Crédit de l’image de couverture : Cheryl Ng – CC BY-SA 4.0