L’intelligence artificielle se dote de cinq sens

Article tiré du journal Nihon Keizai, traduit par Courrier International.

Grâce à l’analyse d’images et de sons, les systèmes d’intelligence artificielle possèdent déjà des yeux et des oreilles. L’apprentissage multimodal permettra d’aller plus loin.

Systèmes d’intelligence artificielle multimodale

“Est-ce que vous mangez ?” “Est-ce que vous prenez bien vos médicaments ?” Un charmant robot glisse ces questions dans sa conversation avec une femme âgée. Malgré les réponses vagues et les silences de celle-ci, il analyse la situation avec beaucoup de finesse et conclut à l’absence de problème.

Dans le cadre d’un projet du bureau du cabinet [du Premier ministre japonais], l’opérateur de téléphonie KDDI et le NICT (Institut national des technologies de l’information et des communications) mènent des recherches sur l’assistance aux personnes âgées dépendantes par des dispositifs d’intelligence artificielle (IA). L’objectif est de déceler les troubles les plus légers à travers un dialogue quotidien.

L’essentiel, dans ces travaux, est que l’intelligence artificielle soit capable d’analyser non seulement le contenu de la conversation mais aussi les changements émotionnels ou les gestes enregistrés dans la vidéo, par exemple. Ainsi, en détectant de la fièvre, “on pourra protéger les personnes âgées du coronavirus”, souligne Torisawa Kentaro, chercheur au Centre de recherche sur les systèmes intelligents basés sur les données. Un être humain peut comprendre à la mauvaise mine de son interlocuteur que celui-ci a des problèmes de santé même s’il affirme le contraire.

Un nouveau mode d’apprentissage qui change la donne

Jusqu’ici, l’IA pouvait analyser des images, des sons et des documents, mais elle n’avait pas la capacité de “sentir” en interprétant ces informations. C’est en ce sens que l’IA multimodale a changé la donne.

Le concept d’intelligence artificielle est né dans les années 1950. Depuis, la discipline n’a cessé de se développer malgré des périodes de stagnation – les “hivers de l’IA” – pendant lesquelles les recherches sont restées au point mort. La technologie de l’apprentissage profond (ou deep learning), en vedette depuis 2012, permet de comprendre le monde à partir d’images vidéo.

Avec le boom de l’IA qui s’est ensuivi, la précision de la reconnaissance d’images a considérablement augmenté. Cette avancée est souvent comparée à l’“explosion cambrienne”, la période géologique où les animaux apparus il y a quelque 400 millions d’années [sur Terre] ont acquis la vue voici plus de 50 millions d’années et connu une évolution rapide. Avec elle, le rêve de technologies comme la conduite automatique est devenu réalisable.

Aujourd’hui, nous sommes entrés dans une nouvelle phase. Les systèmes d’IA qui, jusqu’ici, n’avaient que des yeux ou que des oreilles sont de plus en plus dotés d’yeux et d’oreilles. “L’IA multimodale est sans nul doute la prochaine technologie clé après l’IA”, s’enthousiasme l’ingénieur Junji Iwatani, de la start-up Stockmark, dont les conseils de gestion aux entreprises sont basés sur l’intelligence artificielle et qui a d’ores et déjà introduit cette nouvelle technologie dans son service destiné à améliorer les ventes de ses clients.

Des mouvements inspirants

Les potentialités de l’IA multimodale pourraient se matérialiser dans un avenir imminent. Le groupe de BTP Taisei Corporation et la société ExaWizards, qui œuvre à la solution de problèmes sociaux par l’IA, sont en train d’équiper leurs robots de capacités très proches de nos cinq sens.

L’IA s’est inspirée des mouvements humains pour manipuler des liquides de diverses consistances. Son savoir-faire repose sur des données comme les gestes enregistrés sur les images vidéo, l’épaisseur du liquide [sa viscosité] et l’inclinaison du bras du robot. Elle peut désormais verser une quantité précise de liquide dans un bécher avec plus de dextérité que l’être humain.

Même sans être très attentif, on ne risque guère de renverser un liquide pâteux lorsqu’on le transvase dans un autre récipient. Il n’en va pas de même avec un liquide aussi fluide que l’eau, qu’il faut manipuler avec beaucoup plus de précaution. Mais si la différence est claire pour l’être humain, elle l’était beaucoup moins pour les robots jusqu’à ce que des fabricants comme Taisei recourent à l’IA multimodale. Désormais, ni la mousse de savon ni la pâte à crêpes ne posent de problèmes : la nouvelle technologie sera prochainement utilisée dans les secteurs pharmaceutique et alimentaire. Et ses applications devraient se multiplier à l’avenir.

La société de services informatiques NTT Data projette de s’en servir dans ses recherches sur les marques. L’IA vérifie si des marques similaires n’ont pas existé dans le passé à partir de deux types de données (illustrations et explications en texte).

La singularité en 2045 ?

À l’avenir, l’IA pourrait enregistrer automatiquement les interventions réalisées au bloc opératoire à partir du contenu des vidéos et des conversations. Le MIT-IBM Watson Lab, créé par IBM et le Massachusetts Institute of Technology (MIT), mène lui aussi des recherches dans le domaine de l’IA multimodale qui attirent l’attention mondiale.

D’aucuns prédisent qu’en 2045 l’IA atteindra le stade de la singularité, en d’autres termes qu’elle dépassera l’intelligence humaine. Pour l’heure, elle n’est que “spécialisée”, en ce sens qu’elle dépasse les capacités humaines dans certains domaines, comme le jeu de go, où elle s’impose contre les meilleurs joueurs humains. Si l’IA multimodale représente d’ores et déjà une avancée majeure, nul doute par conséquent que son potentiel futur est bien plus vaste.

Akira Oikawa