Perplexity, étoile montante de l’intelligence artificielle, se retrouve dans la tourmente. Soupçonnée par Cloudflare d’avoir enfreint les règles de navigation et d’avoir aspiré des données sans autorisation, l’entreprise ravive les craintes autour des IA prédatrices du contenu web.
Une vive polémique agite actuellement le monde de l’intelligence artificielle, et elle a pour épicentre Perplexity, une entreprise montante dans ce secteur en pleine ébullition. À peine avait-elle levé le voile sur son nouveau navigateur intelligent, Comet, qualifié de pionnier du « agentic browsing », que la société se retrouve confrontée à de sérieuses accusations émanant d’un acteur majeur de la sécurité numérique : Cloudflare.
Cloudflare lance un signal d’alerte : pratiques douteuses dans la collecte de données
Dans une publication diffusée récemment sur son blog officiel, Cloudflare a tiré la sonnette d’alarme. L’entreprise affirme avoir identifié, à l’issue d’analyses techniques approfondies, des activités suspectes émanant des robots de Perplexity. Ceux-ci auraient, selon Cloudflare, délibérément contourné les directives explicites interdisant l’extraction automatisée d’informations – communément appelée scraping – sur plusieurs milliers de sites web.
Pire encore, l’entreprise de cybersécurité évoque une possible stratégie d’occultation, Perplexity ayant selon elle usé de techniques destinées à masquer l’identité réelle de ses agents logiciels. « Nous avons détecté cette activité sur des dizaines de milliers de domaines, avec des millions de requêtes générées chaque jour », précise Cloudflare, ajoutant s’être appuyée sur une combinaison de signaux réseau et d’algorithmes d’apprentissage automatique pour identifier le comportement en question.
Pour démontrer l’ampleur du phénomène, Cloudflare affirme avoir mis en place des sites factices – configurés pour refuser explicitement l’accès aux robots d’indexation – qui ont pourtant été explorés et indexés par les services de Perplexity, preuve selon eux d’un non-respect des règles établies.
Des méthodes controversées et une riposte ferme de Perplexity
Au cœur de la controverse : la manipulation du champ « user agent », un élément clé permettant aux sites d’identifier la nature de leurs visiteurs. En modifiant cette signature, les robots de Perplexity seraient en mesure de se faire passer pour des utilisateurs humains ordinaires, échappant ainsi aux dispositifs de filtrage classiques. Une pratique jugée préoccupante dans un contexte où de nombreux outils d’IA s’appuient de manière intensive sur les contenus accessibles en ligne – qu’il s’agisse de forums, d’articles spécialisés ou de sites d’actualité – pour enrichir leurs modèles.
Face à ces accusations, Perplexity n’a pas tardé à réagir. Par la voix de sa porte-parole, Jesse Dwyer, la société a fermement nié les faits qui lui sont reprochés. « Les captures d’écran diffusées ne prouvent en rien un accès effectif au contenu, et le robot incriminé n’est pas celui utilisé par nos services », a-t-elle déclaré, rejetant toute implication directe dans les agissements dénoncés.
Vers un bras de fer entre éditeurs de contenus et IA prédatrices ?
Au-delà de ce cas particulier, cette affaire met en lumière les tensions croissantes entre les éditeurs de contenu en ligne et les géants de l’intelligence artificielle. Nombreux sont ceux qui s’inquiètent de voir leurs contenus siphonnés, réutilisés voire reproduits, sans autorisation ni contrepartie. Cette dérive, souvent dénoncée comme du plagiat ou une exploitation abusive des ressources informationnelles du web, soulève des questions fondamentales sur les règles du jeu dans l’économie numérique.
Cloudflare, comme d’autres observateurs du secteur, tire la sonnette d’alarme : l’essor rapide et peu encadré des technologies d’IA risque de déséquilibrer durablement le fragile écosystème de la production de contenus numériques.
Des régulations à venir et une nécessaire refondation des pratiques
Face à cette dérive, plusieurs évolutions semblent désormais inéluctables :
- L’adoption prochaine de réglementations plus strictes encadrant le recours au scraping automatisé, désormais perçu comme une menace économique et éthique ;
- La mise en place de mécanismes techniques renforcés permettant aux sites web de refuser clairement l’accès aux IA exploratrices ;
- Un appel généralisé à plus de transparence dans les méthodes d’entraînement des intelligences artificielles, afin de rétablir un climat de confiance.
Dans un contexte où le numérique s’affirme comme l’un des piliers centraux de la société de l’information, l’équilibre entre innovation technologique et respect des droits des éditeurs demeure plus que jamais un enjeu fondamental.