Cloudflare-Forscher behaupten, dass Perplexity trotz AI Bot Block Websites scrappt

Photo by Joshua Woroniecki on Unsplash

Cloudflare-Forscher behaupten, dass Perplexity trotz AI Bot Block Websites scrappt

Lesezeit: 3 Min.

Forscher des Internet-Infrastrukturanbieters Cloudflare behaupten, dass das KI-System Perplexity Inhalte von Websites ohne Erlaubnis abgreift, selbst wenn Verleger AI-Bot-Blockaden implementiert haben.

Hast du es eilig? Hier sind die schnellen Fakten:

  • Cloudflare behauptet, dass Perplexity Inhalte von Websites ohne Erlaubnis abgreift.
  • Forscher bestätigten das „heimliche Crawling“-Verhalten von Perplexity, selbst wenn Herausgeber AI-Bot-Blockaden implementieren.
  • Ein Sprecher von Perplexity bezeichnete den Bericht von Cloudflare als „Publicity-Stunt“.

Laut dem Bericht, den Cloudflare am Montag geteilt hat, durchsucht Perplexity Websites mit seinem Standard-Benutzeragenten und wechselt seine Identität, um diese Sperren zu umgehen. Dieses Verhalten des „Stealth Crawlings“ wurde von Cloudflares Experten bestätigt.

„Wir sehen immer wieder Beweise dafür, dass Perplexity ihren User-Agent ständig modifiziert und ihre Quell-ASNs ändert, um ihre Crawling-Aktivitäten zu verbergen, sowie die robots.txt-Dateien ignoriert oder manchmal sogar nicht abruft“, schrieben die Forscher.

Crawler sollen transparent sein, ihren Zweck klar darlegen und die Präferenzen von Websites respektieren, aber Forscher behaupten, dass Perplexity diese Vertrauensprinzipien nicht eingehalten hat. Dieser Schluss wurde nach einer Untersuchung gezogen, die aufgrund von Kundenbeschwerden eingeleitet wurde.

„Wir haben Beschwerden von Kunden erhalten, die sowohl die Crawling-Aktivität von Perplexity in ihren robots.txt-Dateien untersagt hatten, als auch WAF-Regeln erstellt hatten, um speziell beide von Perplexity deklarierten Crawler zu blockieren: PerplexityBot und Perplexity-User“, schrieben die Forscherinnen. „Diese Kunden berichteten uns, dass Perplexity immer noch in der Lage war, auf ihren Inhalt zuzugreifen, selbst wenn sie sahen, dass seine Bots erfolgreich blockiert wurden.“

Die Forscherinnen von Cloudflare sagten, sie hätten diese Behauptungen überprüft, indem sie die Blockaden nachbildeten und mehrere Tests durchführten, um das Verhalten des Crawlers zu beobachten. In einem Test erstellten sie neue Domains, die noch nicht indiziert waren, und fügten robots.txt-Dateien hinzu, um „respektvolle Bots“ zu blockieren. Später fragten sie Perplexity nach spezifischen Informationen über die eingeschränkten Domains und stellten fest, dass die KI-gesteuerte Antwortmaschine immer noch Details und genaue Informationen über die Website lieferte.

„Diese Reaktion war unerwartet, da wir alle notwendigen Vorkehrungen getroffen hatten, um zu verhindern, dass diese Daten von ihren Crawlers abgerufen werden können“, fügten die Forscher hinzu.

Ein Sprecher von Perplexity, Jesse Dwyer, bezeichnete die Forschung in einer Stellungnahme für The Verge als „Publicity-Stunt“. Dwyer fügte hinzu, dass es „Missverständnisse“ im Bericht von Cloudflare gibt.

Cloudflare hat mehrere Tools entwickelt, um Verlegern dabei zu helfen, unautorisiertes AI-Crawling zu verhindern. Im März hat Cloudflare „AI Labyrinth“ veröffentlicht, ein Tool, das unautorisierte Crawler in von AI generierte Content-Labyrinthe umleitet. Letzten Monat wurde „Pay Per Crawl“ eingeführt, ein System, das AI-Bots für den Zugriff auf die Inhalte der Verleger zur Kasse bittet.

Hat dir der Artikel gefallen?
Wir freuen uns über eine Bewertung!
Ich mag es gar nicht Nicht so mein Fall War ok Ziemlich gut Ich liebe es

Wir freuen uns, dass dir unsere Arbeit gefallen hat!

Würdest du uns als geschätzte Leserin oder geschätzter Leser eine Bewertung auf Trustpilot schreiben? Das geht schnell und bedeutet uns sehr viel. Danke, dass du am Start bist!

Bewerte uns auf Trustpilot
0 Bewertet von 0 Nutzern
Titel
Kommentar
Danke für dein Feedback