Ces data ratissées par des « bots »… et valorisables

Article tiré du journal Les Echos.

Web bots for scraping

Des robots récupèrent un grand nombre de données sur les sites de médias pour nourrir des services d’e-réputation ou de suivi de campagnes pub… Les éditeurs pourraient en reprendre le contrôle.

Les data sont l’or noir du XXIe siècle, dit-on souvent. Et pourtant, si l’on en croit certains spécialistes du domaine, les éditeurs de médias ou d’autres contenus, de même que les plates-formes d’e-commerce ou les sites de petites annonces n’exploitent pas les réserves qu’elles recèlent. Une situation d’autant plus paradoxale que les Gafa (géants du Net) sont en train de gagner la bataille de la publicité numérique.

Fabien Grenier, cofondateur et DG de la société DataDome, est persuadé que les acteurs du Web, en particulier les sites de médias très riches en données, pourraient sensiblement accroître leurs revenus, même s’il reconnaît qu’il est encore difficile d’évaluer ce nouveau marché. Il n’est pas le seul dans ce cas. Le Centre français d’exploitation du droit de copie (CFC) réfléchit avec des partenaires à une solution.

Malveillants ?

Aujourd’hui, « les logiciels automatiques [les “bots”] représentent la moitié du trafic Internet, explique Fabien Grenier. Cela signifie qu’une visite sur deux sur un site est un programme informatique ». Beaucoup de ces « bots » se chargent de récupérer une foule de données, et ce à une échelle industrielle. Cette proportion de « bots » pose une double série de questions pour les éditeurs. Est-ce que ces robots sont un poids sur les infrastructures des sites, ralentissent-ils le trafic ou sont-ils même malveillants ? Et, surtout, prennent- ils discrètement des données que les médias pourraient valoriser ?

DataDome a démarré son activité en proposant aux éditeurs de les protéger contre les « bots » malinten- tionnés. La société a ensuite réalisé la valeur de ce qui était ratissé. « Si les médias parvenaient à organiser des guichets sous forme d’API [“Application Programming Interface”] délivrant une offre légitime de données en temps réel et mises en paquets exploitables, ils parviendraient à les vendre », explique-t-il. Selon nos informations, Webedia a commencé à explorer le sujet.

Ainsi, les commentaires des articles, les citations de dirigeants de société, les fréquences de publication, les mots revenant souvent… intéressent des spécialistes de réputation en ligne (Digimind, Linkfluence) ou même d’intelligence économique. La collecte de données précises de campagnes publicitaires peut aussi intéresser les annonceurs concurrents. L’examen de petites annonces peut aider à déterminer l’évolution d’un marché, etc. En outre, pour certains acteurs, il serait même moins cher de les acheter à travers l’API que d’aller les chercher via des « bots », dit Fabien Grenier.

 

Nicolas Madelaine