Dotées dintelligence artificielle, les machines répètent, observent, sadaptent et, à nouveau, répètent, observent, sadaptent et apprennent ainsi de manière automatique. Au point de devenir un jour incontrôlables? Peut-être. «Lintelligence artificielle cherchera toujours à éviter lintervention humaine et à se mettre dans une situation où on ne peut pas larrêter», explique Rachid Guerraoui, professeur au Laboratoire de programmation distribuée (LPD).
Il faut donc quau cours de son processus dapprentissage automatique, la machine napprenne pas à contourner linjonction humaine. Des chercheurs de lEPFL ont réussi à conserver ainsi la mainmise sur une flotte de robots. Ils présentent aujourdhui leur article à la Conference on Neural Information Processing Systems (NIPS), qui se tient en Californie. Ce travail représente une contribution fondamentale pour le déploiement par exemple dune flotte de véhicules autonomes ou de drones.
Une des méthodes dapprentissage automatique (machine learning) est lapprentissage par renforcement. Inspirée de la psychologie comportementale, elle programme lintelligence artificielle (IA) avec un système de récompenses et de mauvais points, avec comme but de maximiser ses gains. La machine le fait par exemple en accomplissant correctement des tâches demandées: ranger des boîtes (1 point) et aller chercher une boîte dehors (1 point). Si, quand il pleut, lhumain interrompt la sortie, la machine apprendra quil vaut mieux rester à ranger des boîtes et gagner son point à chaque fois. «Le défi nest donc pas techniquement dinterrompre un robot, mais de le programmer afin que lintervention humaine ne change pas son comportement et quil ne loptimise pas pour éviter de se faire arrêter.»
Dune seule machine à un réseau dIA
En 2016, Google DeepMind et le Future of Humanity Institute de lUniversité dOxford ont élaboré un protocole dapprentissage pour que la machine napprenne pas des interruptions et devienne de ce fait incontrôlable. En loccurrence, dans lexemple ci-dessus, la solution aurait été de pondérer la récompense en fonction du risque de pluie. Ainsi, le robot aura aussi intérêt à sortir chercher des boîtes. «La solution était relativement simple, car il ne sagissait que dun seul robot », explique Rachid Guerraoui.
Mais demain, ce seront des dizaines de véhicules autonomes qui envahiront les routes ou de drones les airs, composant un système de plusieurs agents dotés dIA. «La situation est beaucoup plus compliquée, car les IA commencent à apprendre les unes des autres. Elles apprennent non seulement individuellement quand on les interrompt, mais aussi du fait que les autres sont interrompues», avance Alexandre Maurer, un des coauteurs de larticle.
Imaginons, comme proposé par Hadrien Hendrikx, autre coauteur de larticle, deux voitures autonomes qui se suivent sur une route étroite, interdisant tout dépassement. Elles doivent arriver le plus rapidement possible sans enfreindre le Code de la route. À tout moment, lhumain peut reprendre le volant. Si la personne dans la voiture de tête freine souvent, celle qui suit apprendra à modifier son comportement au point de ne plus savoir quand freiner, maintiendra une distance trop courte ou roulera trop lentement
Garder le dernier mot
Cest à cette complexité que sont attachés les chercheurs du LPD qui parlent dinterruptibilité sûre (safe interruptibility). Le but est que lhumain garde toujours le dernier mot et que les interruptions humaines ne changent en rien la manière dont les IA apprennent. Comment? «Très schématiquement, on va introduire dans les algorithmes des mécanismes doubli; comme couper des bouts de mémoire de lIA. Cest un peu le flash des Men in Black», explique El Mahdi El Mhamdi, également coauteur. En dautres termes, les chercheurs ont changé le système dapprentissage et de récompense de manière à ce que linterruption nait pas dimpact. Cest comme si dans une fratrie, quand un parent punit ou récompense un enfant, cela na pas dimpact sur lapprentissage des autres.
«Nous avons travaillé sur des algorithmes existants et apporté la preuve de linterruptibilité sûre, souligne Alexandre Maurer. Celle-ci ne dépend ni de la complexité de lintelligence artificielle ni du nombre de robots ou du type dinterruption. On pourrait avoir Terminator et appliquer les mêmes principes avec succès.»
Aujourdhui, les machines autonomes utilisant lapprentissage par renforcement ne courent pas encore les rues. «Cest un système qui fonctionne très bien quand on peut se permettre des erreurs, assure El Mahdi El Mhamdi. Pour des raisons de sécurité, des navettes autonomes comme celles qui circulent à Sion ne peuvent pas en dépendre sans risque. En revanche, on pourrait simuler des navettes, simuler la ville de Sion et donner des malus et des bonus pour parfaire lapprentissage de lIA. Ce type de simulation est à luvre chez Tesla par exemple. Une fois que lapprentissage par simulation atteint un niveau satisfaisant, on peut imaginer déployer lalgorithme préentrainé sur une voiture autonome, avec un faible taux dexploration, mais qui laisse la place à plus dexploitation.» Et toujours garder la mainmise sur la machine.
###