Wikipedia diagnostique la grippe

Article tiré de la revue Materia, traduit par Courrier International

Wikipedia diagnostique la grippe
Dessin de Kazanevsky, Ukraine

Aujourd’hui, pour prédire les comportements de masse, on utilise de plus en plus les réseaux sociaux comme Twitter ou les moteurs de recherche comme Google.

Ce qui avait commencé comme une série d’expériences menées par des universitaires est désormais récupéré par de nombreux organismes publics et entreprises, qui exploitent toutes les possibilités des big data. Car, si des millions d’internautes font la même chose en même temps, il y a certainement une raison. Le problème est de décrypter ce que signifie véritablement une avalanche de tweets ou de recherches allant dans le même sens à un moment et un endroit précis.

Dernier outil en date : Wikipedia. Des chercheurs de l’école de médecine de Harvard ont en effet démontré [dans un article scientifique publié le 17 avril dernier dans PLOS Computational Biology] qu’on pouvait se servir des requêtes [menées sur les pages Wikipedia] pour prédire avec précision, en temps réel, l’apparition des épidémies de grippe aux Etats-Unis.

Deux semaines d’avance

Cette encyclopédie en ligne est très présente dans la vie de chacun. Elle est devenue la première source d’information médicale parmi les patients et même les professionnels de la santé. En toute logique, lorsque les recherches Wikipedia sur une maladie contagieuse décollent, on peut supposer qu’une épidémie se prépare.

Les chercheurs David McIver et John Brownstein ont donc étudié la variation du nombre de visites de 35 articles de Wikipedia en anglais concernant [les symptômes et les corollaires de] la grippe de “rhume” jusqu’à “fièvre” en passant par tous les types de virus connus (H1N1, H5N1, etc.) et des médicaments comme le Tamiflu [oseltamivir]. Ils ont collecté des données pendant 294 semaines, pendant lesquelles ont eu lieu en moyenne 30 000 consultations quotidiennes, avec des pics à 334 000 visites. Ils ont ensuite croisé ces données avec les statistiques des Centers for Disease Control and Prevention (CDC, principale agence fédérale de protection de la santé publique américaine). Ils ont alors découvert qu’ils pouvaient prédire avec précision le nombre de cas de grippe, avec un écart d’à peine 0,27 % par rapport aux chiffres officiels.

Plus important encore, ils pouvaient publier ces chiffres presque en temps réel, c’est-à-dire deux semaines avant les autorités médicales. En effet, celles-ci ont besoin de ce délai pour élaborer leurs prévisions à partir de leurs propres systèmes d’information alors que Wikipedia permet de consulter [librement] les statistiques de consultation de chaque article et les actualise quotidiennement, ce qui permet aux chercheurs d’accéder à d’énormes quantités de données.

“Le principal avantage des données de Wikipedia est qu’elles sont accessibles librement, si bien que n’importe qui peut créer ses propres modèles ou améliorer le nôtre”, précise David McIver.

Des avantages certains par rapport à Google Flu Trends (GFT, Tendances Google sur la grippe). Cet outil mis au point par l’entreprise américaine pour prédire les épidémies de grippe a suscité un intense débat universitaire lorsqu’il a commencé à faire des erreurs. En effet, les données utilisées par Google ne sont connues que du moteur de recherche, tandis que celles de Wikipedia sont en accès libre, et donc vérifiables : il est possible de les étudier scientifiquement et de les réutiliser autant de fois que nécessaire pour reproduire des résultats ou améliorer ceux des autres.

Un autre point faible de GFT est sa très grande sensibilité à l’influence des médias : [sur Google], les recherches liées à la grippe ne sont pas uniquement personnelles, elles sont aussi influencées par le tsunami de l’information, comme dans le cas des pandémies mondiales, qui focalisent l’attention de la presse écrite et télévisuelle.

“Or notre modèle a démontré que pendant les phases de grande attention médiatique, comme lors de la pandémie de grippe porcine H1N1, nos calculs à partir de Wikipedia correspondaient très précisément aux cas de grippe sur cette période”, assure McIver. Mais, si fiable soit-il, le modèle développé par l’école de médecine de Harvard a seulement vocation à compléter les données officielles, non à s’y substituer, rappellent les chercheurs. Jusqu’à présent, le suivi des recherches sur Wikipedia a permis de réaliser toutes sortes de prédictions. On a ainsi pu pronostiquer le succès d’un film en mesurant le nombre de recherches juste avant les premières projections. Mais, dans le cas de la grippe, cette méthode présente un inconvénient important : on ne peut pas repérer géographiquement l’incidence de la maladie. Même si Google ne publie pas ses données, on sait qu’il utilise les adresses IP des utilisateurs pour réaliser des prédictions spécifiques par pays et régions.

C’est pour cette raison que d’autres expérimentations ont été tentées – avec un succès relatif – avec Twitter, grâce à la fonction de géolocalisation du réseau social. Il s’agissait de prédire des épidémies en temps réel à des endroits précis, en passant en revue l’emploi de mots clés comme “médecine”, “fièvre” ou “toux”.

Complémentaires

Par ailleurs, comme GFT, les articles de Wikipedia n’échappent pas à l’influence de l’actualité. Ainsi, quand on a appris [le 27 avril] la mort de l’entraîneur espagnol de football Tito Vilanova, les consultations de la fiche sur la “parotide” (glande qui chez lui était cancéreuse) ont été multipliées par plus de 100 par rapport à la moyenne quotidienne.

“L’utilisation des données provenant des réseaux sociaux ou d’autres sites web pour faire des estimations et des prédictions est encore une science balbutiante”, reconnaît McIver. Et il ajoute : “Nous pensons que de telles données sont très prometteuses, étant donné leur masse, leur profondeur, leur ubiquité. Mais nous créons encore des modèles à mesure que nous mettons au point cette discipline.”

Selon cet épidémiologiste, les prévisions sur la santé publique ou les maladies utilisant ce type de données doivent venir compléter l’arsenal traditionnel, celui des CDC ou de l’Organisation mondiale de la santé (OMS). “Il n’est pas question de les remplacer, conclut-il. Ce que nous espérons, à terme, c’est trouver un moyen d’associer toutes ces sources de données pour obtenir l’image le plus fidèle possible de la santé publique.”

 

Javier Salas