Cloudflare, le gardien du Web, lance l’outil ultime pour… aspirer votre site

Le 10 mars dernier, Cloudflare a dévoilé un nouvel outil capable d’aspirer l’intégralité d’un site web en deux commandes. Une annonce pour le moins surprenante de la part d’une société qui met en avant des services de protection contre les bots…

/crawl : un virage à 180 degrés….

Cloudflare est souvent considéré comme le bouclier de référence sur Internet. Les chiffres parlent d’eux-mêmes : des millions d’administrateurs systèmes et de webmasters lui confient les clés de leur trafic pour bloquer les requêtes malveillantes, neutraliser les attaques DDoS et, aussi, empêcher le scraping (le siphonnage de contenu) par des robots non autorisés. On se rappelle d’un service lancé pour bloquer les robots d’exploration IA. C’est ça l’ADN de Cloudflare.

Pourtant, j’ai l’impression que Cloudflare a décidé de nous la faire à l’envers. Un nouvel endpoint nommé a été révélé et il est associé au service Browser Rendering. Derrière cette simple URL se cache un outil de scraping redoutable (et regrettable). Vous lui fournissez une URL, et le service se charge de parcourir l’arborescence du site, d’exécuter le code JavaScript (souvent utilisé pour masquer du contenu aux robots classiques), de suivre les liens, puis de vous restituer les données dans des formats prêts à l’emploi. HTML, Markdown ou JSON structuré, à vous de choisir. C’est servi sur un plateau.

Si Cloudflare sort cet outil, c’est pour avoir sa part du gâteau dans le secteur de l’intelligence artificielle. Il est d’ailleurs précisé ce qui suit dans l’article de blog qui annonce cette nouveauté : “C’est idéal pour l’entraînement de modèles, la création de pipelines RAG et la recherche ou la surveillance de contenu sur un site.”.

Des capacités techniques colossales

Au-delà de sa fonctionnalité principale, cet outil de Cloudflare bénéficie de toute la puissance de l’infrastructure mondiale de Cloudflare. Ainsi, avec simplement deux commandes (une pour initier le crawl, une autre pour afficher les résultats), vous pouvez aspirer un site web complet. Les capacités de cet outil sont énormes :

Volumétrie : jusqu’à 100 000 pages crawlées par opération.
Ciblage : configuration de la profondeur de navigation et inclusion/exclusion de sections entières via des patterns d’URLs.
Optimisation : prise en charge du crawl incrémental, permettant de ne cibler que les pages modifiées depuis le dernier passage (idéal pour la veille en temps réel).
Extraction : récupération de données structurées facilitée par l’intelligence artificielle embarquée.

Cloudflare essaie de se défendre en affirmant que son crawler est conçu pour respecter les directives du fichier , incluant les délais entre les requêtes (). Cela veut dire qu’il doit notamment tenir compte des URL interdites à l’indexation. Faut-il encore que ce fichier soit configuré.

“Le point de terminaison est un agent signé qui respecte par défaut le fichier robots.txt et le contrôle d’exploration par IA, ce qui permet aux développeurs de se conformer facilement aux règles du site web et réduit le risque que les robots d’exploration ignorent les consignes des propriétaires de sites.”, précise Cloudflare.

L’outil, d’ores et déjà disponible pour les forfaits Workers (gratuits comme payants).

Comment celui qui a construit son empire sur la lutte contre les bots peut-il aujourd’hui fournir l’arme ultime pour aspirer le web ? Visiblement, la soif de données avec l’IA semble dicter de nouvelles règles du jeu et surtout retirer toute forme de respect vis-à-vis des contenus publiés sur le Web.

SOURCE