Big data : trois défis pour les maths

Article tiré du journal Le Monde.

Pick a Brain │ For your help!
Ethan Pines for The New York Times

C’est un déluge. Un mot nouveau envahit le monde : « big data ». Selon le moteur de recherche Google, les requêtes en France sur ce terme ont plus que décuplé entre décembre 2011 et décembre 2013. La définition n’est pourtant pas si folichonne : le terme désigne la collecte, l’exploration et l’analyse de grandes masses de données. Des chiffres, des textes ou des images, mais aussi des gènes, des étoiles, des particules ou des traces de trafic routier… Par « grand », chacun entend ce qu’il veut. De plusieurs millions de gigaoctets (Go) pour les géants du Web Google ou Facebook à quelques milliers pour des fichiers de géolocalisation, par exemple. Voire encore moins pour les petits malins qui remaquillent en « big » ce qui est en réalité « small ».

La popularité du mot est en fait moins liée à la fascination pour les grands nombres qu’aux promesses et réalités du concept. Côté réalité, l’espionnage à grande échelle de l’Agence nationale de sécurité (NSA) américaine révélé, en juin 2013, par l’un de ses anciens employés, Edward Snowden, a montré la proximité entre big data et Big Brother. Côté promesse, les consultants ont convaincu de nombreux acteurs de l’économie que leurs données, parfois dormantes, constituent des richesses potentielles : amélioration des diagnostics et du ciblage thérapeutique pour l’industrie pharmaceutique, efficacité accrue des campagnes de publicité sur le Web, estimations des primes d’assurance, recommandations accompagnées d’achats pour les marchands en ligne, anticipation de la délinquance pour la police… Bref, nombre de domaines sont ou seront concernés.

Une enveloppe de 200 millions de dollars aux Etats-Unis

Les Etats-Unis, en annonçant en mars 2012 leur programme « Recherche et développement big data », assorti d’une enveloppe de 200 millions de dollars (146 millions d’euros), accompagnent ce mouvement. Tout comme la France, où la Commission innovation 2030 en a fait l’un des sept défis d’avenir.

Mais, pour réaliser les promesses, il faudra autre chose que de la force brute et des machines plus puissantes. Place à la matière grise et subtile des cerveaux d’informaticiens et de mathématiciens. Car, très vite, devant ces vastes listes ou tableaux de chiffres, de lettres ou d’images, l’analyste tombe sur trois os, au moins : le volume, la vitesse et la variété de ces données, tels que montré en 2001 par le cabinet d’études Meta Group (qui n’utilisait pas le terme big data à l’époque). « Volume » se comprend aisément. « Vitesse » également, si l’on pense à la mise à jour fréquente de données comme celles des mots-clés des pages Web, des clics d’internautes sur des pages ou même des consultations de produits de sites marchands. « Variété » est moins naturel. Le mot désigne l’hétérogénéité de la moisson, qui, par exemple en ce qui concerne un utilisateur, contiendra un nom, un âge, une adresse, mais aussi la liste de sites Web qu’il a visités, des commentaires qu’il aura laissés sur ces sites, des photos ou des vidéos… Un ensemble bien plus « sale » que les tableaux traditionnels de clientèle gérés par un représentant de commerce ou un banquier.

Comment faire des calculs sur de tels monstres ?

La première propriété, le volume, a rapidement posé un défi aux informaticiens : comment faire des calculs sur de tels monstres ? Et comment gérer cette base de données géante ? Google a été parmi les premiers à avoir trouvé une solution à la première question. Indexer tout le Web, comme il le souhaitait, consiste à associer à chaque page la liste des mots qu’elle contient. Puis à « inverser » ce tableau pour qu’à chaque mot une liste de pages ordonnées soit proposée. Sauf que le tableau est bien trop gros pour être manipulé dans la mémoire d’un ordinateur. Même l’équivalent d’une simple opération de moyenne est impossible. Les ingénieurs ont alors eu l’idée de couper les problèmes en petits morceaux, puis de distribuer ces bouts à des milliers de machines peu puissantes, avant de remettre ensemble les résultats partiels.

Le concept MapReduce – désormais un standard dans le domaine – était né. Il est aujourd’hui associé à un autre ensemble d’outils, Hadoop, auquel Google et Yahoo! notamment ont participé. « Des problèmes se coupent cependant mal en morceaux », souligne François Bourdoncle, membre de la Commission innovation 2030 et directeur technique d’Exalead (groupe Dassault Systèmes), dont le développement avait nécessité des méthodes de type MapReduce. Inversement, « j’ai vu des industriels faire du big data même avec Hadoop sur des données qui auraient pu être analysées par un portable », s’amuse Serge Abiteboul, professeur au Collège de France et chercheur à l’Institut national de recherche en informatique et en automatique (Inria).

Gérer la masse

Un autre problème s’est vite posé pour gérer la masse. Depuis les années 1960, cette tâche est l’apanage des bases de données dites relationnelles mises sur pied par IBM. Elles constituent, doublées d’un langage propre pour les interroger (SQL), une interface entre l’utilisateur et l’ordinateur qui stocke ces données. Très adaptées à la comptabilité ou à la gestion de stocks, elles sont vite apparues inadaptées aux exigences des géants du Web, Amazon, Google, Facebook, Twitter… Ces acteurs n’avaient pas besoin de toute la rigueur de ces usines à gaz qui, à chaque nouvelle entrée, effectuent un ensemble de calculs, coûteux en temps et en énergie. Ils ont donc développé leurs propres systèmes, désignés génériquement par le terme Nosql, qui font moins de choses mais plus efficacement.

« La vague liée aux développements de ces aspects technologiques et d’infrastructures est déjà bien lancée. Il faut maintenant utiliser ces données. Ce sera la prochaine vague », estime François Bourdoncle. Retour donc aux mathématiques fondamentales pour faire parler ces données. Avec parfois un retour aussi des vieilles idées pour réussir ces nouveaux défis. Mais les trois propriétés volume, vitesse et variété modifient considérablement l’approche statistique traditionnelle.

Le « fléau de la dimensionnalité »

Ainsi, les sondeurs savent bien que la précision de leur étude est liée à la taille de l’échantillon : plus il y a de personnes, plus la barre d’erreur est faible. Dans le cas du big data, le problème est renversé. Il y a bien plus de « connaissances » ou de variables pour chaque individu. Ce peut être une liste de mutations génétiques ou bien, pour un internaute, des caractéristiques de localisation, d’adresse, de pages visitées… Autre exemple d’échantillon : dans un index de moteur de recherche, à chaque mot seront associées des millions de pages. Et pire, le nombre de variables peut être plus grand que la taille même de l’échantillon ! C’est ce que les spécialistes appellent le « fléau de la dimensionnalité ».

En 2000, le mathématicien américain David Donoho, de l’université Stanford, en avait fait le titre d’une de ses interventions en annonçant que ce serait le défi des années à venir pour sa communauté. « L’espace considéré apparaît immense, et les choses intéressantes y sont rares. Tout ce qui est a priori possible ne se réalise pas nécessairement », résume Stéphan Clémençon, responsable de la toute nouvelle chaire big data à l’Institut Mines-Télécom. Concrètement, il faut trouver les méthodes automatiques permettant dans ces vastes espaces de classer des éléments, de regrouper des parties semblables de l’échantillon, d’identifier des traits récurrents ou invariants, de repérer des motifs, de prédire quels facteurs expliquent tel effet…

« L’apprentissage réconcilie la statistique, l’optimisation et les contraintes algorithmiques »

Souvent, ces objectifs reviennent à tenter de prédire un comportement à partir de différentes variables. Par exemple trouver la taille d’un individu en fonction de celle de ses parents, de son origine géographique, d’une dizaine de gènes… Cela revient à tracer la meilleure courbe passant par tous ces paramètres et à répéter l’exercice sur un autre individu : c’est ce qu’on appelle l’apprentissage. Mais plus il y a de variables ou de points, plus le risque est grand que la courbe se complique et devienne vite impossible à calculer. D’où l’invention de techniques permettant d’éviter cet affolement. « L’apprentissage réconcilie la statistique, l’optimisation et les contraintes algorithmiques, davantage étudiées par les informaticiens », complète Stéphan Clémençon.

Il existe maintenant un grand nombre de méthodes issues de branches différentes des mathématiques comme les probabilités ou la géométrie. « Mais un des défis stimulants est d’adapter ces concepts aux architectures de calculs distribués, par exemple », prévient Nicolas Vayatis, directeur du Centre de mathématiques et de leurs applications à l’ENS Cachan.

La question du volume pose d’autres problèmes : prendre des vessies pour des lanternes. « L’utilisation naïve sur une telle abondance de données, de techniques d’analyse des corrélations met en évidence un grand nombre de faux positifs », alerte Aurélien Garivier, professeur à l’Institut de mathématiques de Toulouse (CNRS/université Paul-Sabatier), qui observe le retour de méthodes anciennes pour pallier ces inconvénients.

Adapter les méthodes traditionnelles

La mise à jour plus ou moins fréquente de certaines données oblige aussi à adapter les méthodes traditionnelles. Par exemple, classer des individus peut être équivalent en maths à chercher le minimum d’une courbe ; un calcul classique. Mais si une nouvelle donnée arrive, il est inimaginable de devoir refaire le calcul à partir de toutes les données. Il faut donc trouver une solution qui tienne compte du résultat à l’étape antérieure et de la perturbation introduite par l’arrivée de la nouvelle information. Cela a remis au goût du jour des méthodes imaginées dans les années 1950. « Comme alors, mais pour des raisons différentes, ce regain est lié à des contraintes matérielles », constate Aurélien Garivier.

Enfin, la variété pose aussi des problèmes. En statistique classique, les données sont en général à un seul endroit. Mais, avec les smartphones, les tablettes et bientôt bien d’autres objets connectés, ces données ne sont pas toujours centralisées en un lieu unique. Certes, pour les analyser, un rapatriement sur un seul ordinateur est possible, mais il sera sans doute coûteux en calculs. D’où des travaux sur des protocoles et algorithmes permettant aux « capteurs » de bavarder entre eux pour diffuser des résultats partiels de voisin à voisin jusqu’au résultat final.

Veiller à ne pas oublier les sous-groupes rares et à ne pas surreprésenter les dominants

En outre, le contexte habituel est de manipuler des échantillons assez homogènes où chaque variable suit peu ou prou une loi en cloche, c’est-à-dire qu’une large majorité des valeurs est proche de la moyenne. Or beaucoup de données échappent à cette loi. Un échantillon peut ne pas couvrir l’ensemble des possibles. C’est le cas par exemple de la répartition de la richesse, où environ 80 % de celle-ci est possédée par 20 % de la population, quand 80 % des gens se partagent 20 % de ce qui reste. De même, beaucoup d’internautes visitent une seule page d’un site Web, alors qu’un grand nombre de pages ne sera vu que par une poignée de visiteurs. L’analyse doit donc veiller à ce que les sous-groupes rares ne soient pas oubliés et les dominants pas surreprésentés.

« Ce n’est que le début des recherches. On ne sait pas encore tout ce que nous pourrons réussir à faire. On puise dans beaucoup de branches des maths, et les idées viendront peut-être d’endroits inattendus », prévoit Stéphan Clémençon. « A chaque problème, il faut réfléchir. C’est pour cela qu’on parle de sciences des données, insiste Jean-Michel Loubes, professeur à l’Institut de mathématiques de Toulouse. Il n’y a pas de solutions presse-bouton. »

 

David Larousserie