Zurück zum Blog

Folgen und abonnieren

Wikipedia fordert KI-Unternehmen auf, das Scraping einzustellen

Natalie Griffeth

Senior Content Marketing Manager

Der Widerstand gegen Bots hat begonnen

Am Montag veröffentlichte Wikipedia – die vertrauenswürdige, durch Crowdsourcing betriebene Enzyklopädie im Internet – eine Erklärung, in der sie die großen KI-Scraper dazu aufforderte, ihre kostenpflichtige API zu nutzen, anstatt ihre Informationen kostenlos zu verwenden. Wikipedia, die auf Spenden und die Finanzierung durch die Gemeinschaft angewiesen ist, erlebt, wie KI-Unternehmen genau das Modell umgehen, das ihre Plattform möglich macht. Sie bittet KI-Unternehmen eindringlich, stattdessen die kostenpflichtige Lösung zu nutzen.

In ihrer Erklärung gab Wikipedia bekannt, dass sie „KI-Entwickler und andere Wiederverwender von Inhalten, die auf unsere Inhalte zugreifen, dazu auffordern, diese verantwortungsbewusst zu nutzen und Wikipedia zu unterstützen. Dies können sie durch zwei einfache Maßnahmen erreichen: Zuschreibungen und finanzielle Unterstützung. Die Anforderung ist einfach: Richtige Zuschreibungen und „[richtiger] Zugriff [auf] Wikipedia-Inhalte über die Wikimedia Enterprise Plattform“. Wikipedia sagt: „Dieses kostenpflichtige Opt-in-Produkt ermöglicht es Unternehmen, Wikipedia-Inhalte in großem Umfang und nachhaltig zu nutzen, ohne die Server von Wikipedia stark zu belasten, während sie gleichzeitig unsere gemeinnützige Mission unterstützen.“

Die Verlage spüren die Auswirkungen des Scrapings

Warum also die Bitte? Weil Publisher die Auswirkungen des ungebremsten Scrapings zu spüren bekommen. 

Im Oktober veröffentlichte Wikipedia eine Statistik, die einen Rückgang des Web-Traffics um 8 % im Vergleich zum Vorjahr aufgrund von KI belegt. Marshall Miller, Senior Director of Product bei der Wikipedia Foundation, erklärte, dass man daran arbeite, menschlichen Traffic von Bot-Traffic zu unterscheiden. Es tauchen weitere Bedenken hinsichtlich des Mangels an Community-Bearbeitungen von Wikipedia-Seiten auf – die eigentliche Grundlage dafür, wie Wikipedia seinen reichhaltigen Inhalt beibehält. Wenn Verbraucher KI-Übersichten verwenden, anstatt direkt auf Wikipedia zu klicken, führt dies zwar zu weniger Besuchern, aber auch zu weniger Editoren. Dies könnte dazu führen, dass Wikipedia zu einem toten Raum wird.

Wikipedia hat zwei Hauptanliegen: Erstens führt das Scraping ihrer Inhalte zu weniger Besuchern und einer geringeren Abhängigkeit von ihrer Plattform, was zu sinkendem Umsatz und weniger Traffic führt. Zweitens ist man besorgt über die erhebliche Belastung, die der Scraping-Traffic für die Server darstellt. Deshalb fordert Wikipedia die Nutzer (insbesondere KI-Unternehmen) auf, ihre kostenpflichtige Suchoption zu nutzen, die es den Nutzern ermöglicht, ihre Inhalte in großem Umfang zu durchsuchen, ohne die Server zu überlasten oder diese wertvollen Informationen im Wesentlichen „kostenlos“ zu „stehlen“.  

Die Themen dieser speziellen Geschichte stimmen genau mit dem überein, was wir von unserem Security Research Team sehen. Unser Threat Insights Report für das zweite Quartal und unser bevorstehender Bericht für das dritte Quartal heben ähnliche Einblicke hervor. Da Bots einen großen Anteil am gesamten Website-Traffic ausmachen, führt dies zu einer Überlastung der Infrastruktur, zu „gestohlenen“ Inhalten und zum Risiko, dass böswillige Absichten unkontrolliert bleiben. In unserem Bericht für das zweite Quartal wurde hervorgehoben, dass „KI-Bots die ungeschützte Web-Infrastruktur erheblich belasten können, wobei die Traffic-Spitzen bis zu 39.000 Anfragen pro Minute erreichen“.

Der Widerstand gegen KI hat begonnen

Miller erklärte in seinem Blogpost, dass die Einführung besserer Bot-Management-Lösungen zur „Neuklassifizierung [ihres] Traffics“ zu der Erkenntnis geführt habe, dass „ein Großteil ihres ungewöhnlich hohen Traffics … von Bots stammte, die zur Umgehung der Erkennung gebaut wurden“.

Dies deutet auf einen Trend hin, den wir in unseren eigenen Daten verfolgen – Organisationen erkennen zunehmend, dass selbst „gewünschte Bots“ oder solche, die scheinbar keine bösartigen Absichten haben, ihre Infrastruktur übermäßig belasten und ihr wertvolles geistiges Eigentum „stehlen“ können. 

Tatsächlich hat unser demnächst erscheinender Threat Insights Report für das dritte Quartal ergeben, dass Unternehmen zunehmend sogenannte „gewünschte“ Bots blockieren, also solche, die als nicht bösartig gelten. Dies zeigt uns, dass die Toleranz gegenüber KI-Scraping, selbst für legitime Zwecke, zunehmend kritisch betrachtet wird. Organisationen gestatten nicht mehr, dass ihre Daten ohne Entschädigung von Scrapern abgegriffen werden. 

Während Wikipedia aufgrund ihres Non-Profit-Status zunehmend unter Druck steht, bleibt dasselbe Problem für Publisher weltweit bestehen.

Angesichts der Auswirkungen auf den Umsatz und die Infrastrukturkosten erwarten wir, dass sich weitere Akteure Wikipedia anschließen und weiterhin gegen KI-Scraping vorgehen.

Eine Bot-Management-Strategie ist kein nettes Extra mehr

Bot-Management-Lösungen sind nicht mehr optional – sie sollten ein verpflichtender Bestandteil eines jeden AppSec-Programms sein. Funktionen wie unser Angebot in Partnerschaft mit Tollbit ermöglichen es Unternehmen, Bots zur Kasse zu bitten, anstatt sie einfach komplett zu sperren – genau diesen Ansatz verfolgt auch Wikipedia.

Unterm Strich? Organisationen greifen zunehmend durch – es ist weder profitabel noch nachhaltig, die kostenlose Nutzung Ihrer Inhalte einfach zu erlauben, und es wird immer wichtiger, eine Bot-Strategie parat zu haben. 

Organisationen sollten bedenken, dass Robots.txt-Dateien kein Schutzschild sind – sie sind lediglich eine Empfehlung.