Abonnez-vous pour recevoir des notifications sur les nouveaux articles :

Déclarez votre indépendance vis-à-vis de l'IA : bloquez les bots IA, les bots d'extraction et les bots d'indexation en un seul clic

2024-07-03

Lecture: 9 min.

Pour contribuer à préserver la sûreté d'Internet pour les créateurs de contenus, nous venons d'inaugurer un nouveau « bouton magique » permettant de bloquer tous les bots IA. Il est disponible pour tous les clients, y compris les utilisateurs de notre offre gratuite.

La popularité de l'IA générative a entraîné une véritable explosion de la demande de contenus utilisés pour former des modèles ou exécuter des inférences ; et bien que certaines entreprises de développement d'IA identifient clairement leurs bots d'extraction de contenus web, toutes ne font pas preuve de transparence. Google aurait ainsi versé 60 millions de dollars par an pour obtenir une licence d'utilisation des contenus générés par les utilisateurs de Reddit, tandis que Scarlett Johansson a affirmé qu'OpenAI avait utilisé sa voix pour son nouvel assistant personnel sans son consentement. Plus récemment, Perplexity a été accusée d'usurper l'identité de visiteurs légitimes afin d'extraire des contenus de sites web. La valeur des contenus originaux en masse n'a jamais été aussi élevée.

L'année dernière, Cloudflare a annoncé la possibilité pour ses clients de bloquer facilement les bots IA présentant un comportement légitime. Ces bots se conforment aux instructions du fichier robots.txt et n'utilisent pas de contenus non autorisés pour former leurs modèles ou exécuter l'inférence pour les applications RAG utilisant des données de sites web. Bien que le comportement de ces bots IA soit légitime, les clients de Cloudflare choisissent majoritairement de les bloquer.

Nous entendons clairement que les clients ne souhaitent pas que des bots IA accèdent à leurs sites web, en particulier s'ils le font de manière malhonnête. Pour les aider, nous avons ajouté une nouvelle fonctionnalité permettant de bloquer tous les bots IA en un clic. Elle est disponible pour tous les clients, y compris les utilisateurs de l'offre gratuite. Pour l'activer, accédez simplement à la section Security > Bots (Sécurité > Bots) du tableau de bord Cloudflare, puis cliquez sur le sélecteur AI Scrapers and Crawlers (Bots IA d'extraction et d'indexation).

Cette fonctionnalité sera automatiquement mise à jour au fil du temps, à mesure que nous identifierons de nouvelles empreintes digitales correspondant à des bots illégitimes extrayant des contenus web à grande échelle aux fins de l'apprentissage de modèles. Pour nous assurer de disposer d'une compréhension globale de l'ensemble des activités des bots IA d'indexation, nous avons étudié le trafic sur l'ensemble de notre réseau.

Activité des bots IA aujourd'hui

Le graphique ci-dessous illustre les bots IA les plus populaires observés sur le réseau de Cloudflare, au regard du volume de requêtes. Nous avons examiné les agents utilisateurs des bots IA d'indexation les plus répandus et avons comptabilisé le nombre de requêtes reçues sur notre plateforme par ces agents utilisateurs IA au cours de l'année passée :

Lorsque nous examinons le nombre de requêtes adressées aux sites de Cloudflare, nous observons que Bytespider, Amazonbot, ClaudeBot et GPTBot sont les quatre principaux bots IA d'indexation. Exploité par ByteDance, la société chinoise propriétaire de TikTok, Bytespider serait utilisé pour collecter des données d'apprentissage utilisées par les grands modèles de langage (LLM) de l'entreprise, notamment celles consommées par Doubao, le rival de ChatGPT développé par ByteDance. Amazonbot et ClaudeBot suivent ByteSpider en termes de volume de requêtes. Amazonbot, censément utilisé aux fins de l'indexation des contenus des réponses aux questions d'Alexa, a transmis le deuxième nombre le plus important de requêtes, tandis que le volume de requêtes transmis par ClaudeBot, utilisé pour former le chatbot Claude, a récemment augmenté.

Parmi les principaux bots IA que nous observons, Bytespider arrive en tête non seulement en termes de nombre de requêtes, mais également au regard de l'étendue de l'exploration des propriétés Internet et de la fréquence à laquelle il est bloqué. Il est suivi de près par GPTbot, qui occupe la deuxième place du classement au regard de l'ampleur de l'indexation et de la fréquence de blocage. GPTBot, géré par OpenAI, collecte des données d'apprentissage pour les LLM de l'entreprise, sur lesquels reposent les produits basés sur l'IA tels que ChatGPT. Dans le tableau ci-dessous, l'indication « Part de sites web consultés » désigne la proportion de sites web protégés par Cloudflare et consultés par le bot IA correspondant.

Bot IA Part de sites web consultés
Bytepider 40,40 %
GPTBbot 35,46 %
ClaudeBot 11,17 %
ImageifBot 8,75 %
CCCot 2,14 %
ChatGPT-User 1,84 %
omgili 0,10 %
Diffbot 0,08 %
Claude-web 0,04 %
PerplexityBot 0,01 %

Bien que notre analyse ait permis d'identifier les bots d'indexation les plus répandus au regard du volume de requêtes et du nombre de propriétés Internet consultées, de nombreux clients ne connaissent probablement pas les bots IA d'indexation les plus courants qui explorent activement leurs sites. L'équipe de Cloudflare Radar a effectué une analyse des principales entrées du fichier robots.txt des 10 000 principaux domaines Internet afin d'identifier les bots IA les plus couramment utilisés, puis a examiné la fréquence à laquelle nous avons observé ces bots sur les sites protégés par Cloudflare.

Dans le graphique ci-dessous, qui examine les bots d'indexation interdits pour ces sites, nous constatons que les clients ajoutent le plus fréquemment GPTBot, CCBot et Google au fichier robots.txt, mais qu'ils n'interdisent pas spécifiquement des bots d'indexation répandus tels que Bytespider et ClaudeBot.

Internet étant désormais inondé de ces bots IA, nous étions curieux de découvrir comment les opérateurs de sites web avaient déjà réagi. En juin, des bots IA ont accédé à environ 39 % du premier million de propriétés Internet utilisant Cloudflare ; cependant, 2,98 % seulement de ces propriétés ont pris des dispositions pour bloquer ou vérifier ces requêtes. Par ailleurs, plus le classement d'une propriété Internet est élevé (c'est-à-dire, plus la propriété est connue), plus cette propriété est susceptible d'être la cible de bots IA et, par conséquent, plus elle est susceptible de bloquer les requêtes correspondantes.

N premières propriétés Internet au regard du nombre de visiteurs observés par Cloudflare % d'accès par des bots IA % de blocage de bots IA
10 80,0 % 40,0 %
100 63,0 % 16,0 %
1 000 53,2 % 8,8 %
10 000 47,99 % 8,92 %
100 000 44,53 % 6,36 %
1 000 000 38,73 % 2,98 %

Nous voyons des opérateurs web interdire complètement l'accès à ces bots IA d'indexation avec le fichier robots.txt. Cependant, ces blocages dépendent de la volonté des opérateurs de bots à respecter les instructions du fichier robots.txt, ainsi que de leur conformité à RFC9309 (qui assure que les variations propres à l'utilisateur par rapport à l'ensemble des utilisateurs correspondant au jeton du produit). Ces dispositions permettent de les identifier honnêtement lorsqu'ils accèdent à une propriété Internet ; toutefois, les agents utilisateurs peuvent être facilement modifiés par les opérateurs de bots.

Comment nous identifions les bots IA qui se font passer pour des navigateurs web légitimes

Malheureusement, nous avons observé que certains opérateurs de bots tentent de faire passer ces derniers pour des navigateurs légitimes, en utilisant un agent utilisateur usurpé. Nous avons surveillé cette activité au fil du temps, et nous sommes fiers d'annoncer que notre modèle mondial d'apprentissage automatique a toujours identifié cette activité comme étant liée à un bot, même lorsque les opérateurs mentaient au sujet de leur agent utilisateur.

Prenons l'exemple d'un bot spécifique, identifié par d'autres comme dissimulant son activité. Nous avons réalisé une analyse afin de déterminer de quelle manière nos modèles d'apprentissage automatique évaluaient le trafic provenant de ce bot. Dans le diagramme ci-dessous, vous pouvez voir que tous les scores de bot sont nettement inférieurs à 30, indiquant que notre évaluation considère que cette activité est susceptible d'être liée à un bot.

Le diagramme reflète l'évaluation des requêtes selon notre modèle le plus récent, dans lequel les couleurs chaudes signalent un nombre élevé de requêtes correspondant à cette bande et les couleurs froides signalent un nombre peu élevé de requêtes. Nous pouvons constater que l’immense majorité des requêtes correspond aux deux bandes inférieures, démontrant que le modèle de Cloudflare a attribué au bot incriminé un score de 9 ou moins. Les modifications de l'agent utilisateur n'ont aucune incidence sur l'évaluation, car il s'agit, selon nous, de la toute première disposition que prennent les opérateurs de bots.

Les clients utilisant d'une règle de pare-feu WAF imposant une vérification aux visiteurs présentant un score de bot inférieur à 30 (ce qui constitue notre recommandation) ont automatiquement bloqué l'ensemble du trafic associé à ce bot IA, sans autre action de leur part. Cela s'appliquera également aux futurs bots IA utilisant des techniques similaires pour dissimuler leur activité.

Nous utilisons les signaux globaux de Cloudflare pour calculer notre score de bot ; pour les bots IA tels que ceux décrits ci-dessus, ce score reflète notre capacité à les identifier correctement et à les évaluer comme « bot probable ».

Lorsque des acteurs malveillants tentent d'indexer des sites web à grande échelle, ils utilisent généralement des outils et des infrastructures que nous sommes en mesure d'identifier. Chaque fois que nous observons une empreinte digitale, nous utilisons le réseau de Cloudflare, qui achemine en moyenne plus de 57 millions de requêtes par seconde, pour évaluer la confiance que nous devons accorder à cette empreinte digitale. Pour alimenter nos modèles, nous calculons des agrégats mondiaux en prenant en compte une multitude de signaux. Sur la base de ces signaux, nos modèles ont été en mesure d'identifier correctement le trafic provenant de bots IA dissimulés, tels que celui décrit dans l'exemple ci-dessus, comme provenant de bots.

Ces données mondialement agrégées nous permettent de détecter immédiatement les nouveaux outils d'extraction de contenus et leur comportement, sans toutefois devoir identifier manuellement les empreintes digitales de bots. Nous pouvons ainsi garantir que nos clients restent protégés contre les nouvelles vagues d'activités liées aux bots.

Si vous avez connaissance d'un bot IA qui se comporte de manière malveillante, nous serons ravis de mener l'enquête. Deux options s'offrent à vous pour signaler les bots d'indexation de contenu dont le comportement n'est pas légitime :

1. Les clients utilisateurs du service de gestion des bots de l'offre Enterprise peuvent transmettre un rapport de boucle de collecte d'informations via le service Bot Analytics en sélectionnant simplement le segment de trafic dans lequel ils ont observé le mauvais comportement :

2. Nous avons également mis en place un outil de création de rapports permettant à tout client de Cloudflare de signaler la présence d'un bot IA extrayant des contenus d'un site web sans autorisation.

Nous craignons que certaines entreprises de développement d'IA désireuses de contourner les règles pour accéder à des contenus persistent à s'adapter afin d'échapper à notre solution de détection de bots. Nous continuerons à surveiller la situation ; nous ajouterons d'autres mécanismes de blocages de bots à notre règle AI Scrapers et Crawlers et nous ferons évoluer nos modèles d'apprentissage automatique, afin de veiller à ce qu'Internet demeure un espace dans lequel les créateurs de contenus peuvent prospérer et conserver un contrôle total sur les modèles utilisant leurs contenus à des fins d'apprentissage ou d'inférence.

Nous protégeons des réseaux d'entreprise entiers, aidons nos clients à développer efficacement des applications à l'échelle d'Internet, accélérons tous les sites web ou applications Internet, repoussons les attaques DDoS, tenons les pirates informatiques à distance et pouvons vous accompagner dans votre parcours d'adoption de l'architecture Zero Trust.

Accédez à 1.1.1.1 depuis n'importe quel appareil pour commencer à utiliser notre application gratuite, qui rend votre navigation Internet plus rapide et plus sûre.

Pour en apprendre davantage sur notre mission, à savoir contribuer à bâtir un Internet meilleur, cliquez ici. Si vous cherchez de nouvelles perspectives professionnelles, consultez nos postes vacants.
Bots (FR)AI Bots (FR)Bot Management (FR)AI (FR)Machine Learning (FR)Français

Suivre sur X

Adam Martinetti|@adamemcf
Reid Tatoris|@reidtatoris
Cloudflare|@cloudflare

Publications associées

03 juillet 2024 à 13:00

宣佈推出 AIndependence:一鍵封鎖 AI 機器人、剽竊者和網路爬蟲

為了幫助內容創作者維護安全的網際網路,我們剛剛推出了一個全新的「快速鍵」來封鎖所有 AI 機器人。所有客戶均可使用此功能,包括我們的免費方案客戶...

03 juillet 2024 à 13:00

宣布独立自主使用 AI:一键阻止 AI 机器人、抓取工具和爬网程序

为了帮助内容创作者维护安全的互联网环境,Cloudflare 刚刚推出了一个全新的“简易按钮”用于阻止所有 AI 机器人。它适用于所有客户,包括使用免费套餐的客户...

03 juillet 2024 à 13:00

AIndependence로 AI 독립 선언하기: 클릭 한 번으로 인공지능 봇, 스크래퍼, 크롤러 차단

Cloudflare는 콘텐츠 크리에이터를 대상으로 인터넷을 안전하게 보호하기 위해 모든 AI 봇을 차단하는 새로운 '이지 버튼'을 출시했습니다. 무료 등급 고객을 포함한 모든 고객이 이용할 수 있습니다...

  翻译: