Opt-Out-Lösungen für den Schutz Ihrer Website vor KI-Bots

Leider ist es im Moment so, dass man als Webhost nur die Möglichkeit per Opt-Out hat, die eigene Website vor dem Training von KI-Modellen zu schützen.
Dieser Schutz kann auf unterschiedlichen Levels, Techniken und Reichweiten erfolgen und unterliegt unterschiedlicher Durchsetzbarkeit.

Opt-Out Formate haben unterschiedliche Durchsetzbarkeit und Reichweite — Mindmap: Die verschiedenen Opt-Out – Techniken in der Übersicht

Contents

1 Durchsetzbarkeit der Opt-Out-Reglungen
- 1.1 Nachteile der Opt-Out-Reglung für die Webmaster in der Übersicht
2 Reichweite der Opt-Out-Maßnahmen
3 Konkrete Maßnahmen zum Schutz der Webseite vor Tokenisierung

Durchsetzbarkeit der Opt-Out-Reglungen

Grundvoraussetzung für die Durchsetzbarkeit von Opt-Out ist die Identifikation der KI-Bots. Dazu kann der Parameter ‚User-Agent‘ oder auch die IP-Adresse herangezogen werden. Das ist problematisch, denn wer weiß denn schon vielviele Bots mit welchem Namen gerade unterwegs sind, um das Web nach den begehrten Trainingsdaten zu durchsuchen, ganz abgesehen davon, welche Aktoren in Zukunft auf der Bildfläche erscheinen werden.

Im schlimmsten Fall kann es außerdem passieren, dass der Name des Bots zwar bekannt ist, dieser aber die implementierten Restriktionen nicht beachtet (robots.txt), sofern nicht aufwendige technische Maßnahmen wie eine Firewall ergriffen werden, um sie durchzusetzen.

Nachteile der Opt-Out-Reglung für die Webmaster in der Übersicht

Identifikation der KI-Crawler notwendig
Schwierig, die Liste der KI-Bots aktuell zu halten.
Ständige Wartungsarbeiten an der Website, um die Info in robots.txt etc. up to date zu halten
Keinerlei Möglichkeit, einzugreifen, wenn man zu spät war.
Keine Fristen für KI-Crawler zwischen Bekanntgabe des User-Agents und Start des Crawlens.
Verbindliche Techniken wie Firewalls stehen oft nicht direkt zur Verfügung.

Es wäre als dringend ein Umwechseln zur Opt-In Lösung oder wartungsärmeren Lösungen als den vorhandenen nötig. Vorschläge zu einer wartungsärmeren Lösung wurde in diesem Paper mit der Einführung einer leaners.txt – Datei gemacht. Es müssten auch Konsequenzen greifen, wenn die Opt-Out-Regeln nicht beachtet werden, und dies anhand von Logdateien nachgewiesen werden kann.

Trotz der oben genannten Widrigkeiten finde ich, wir als Webhosts sollten die uns zur Verfügung stehenden Möglichkeiten nutzen, um unsere Webseiten zu schützen. Alles andere könnte fälschlicherweise als schweigende Zustimmung gewertet werden. Es geht um den Schutz unseres geistigen Eigentums.

Reichweite der Opt-Out-Maßnahmen

Hier haben wir die Möglichkeiten:

kompletten Sperrung unserer Website
nur eine Indizierung zulassen und damit KI auszusperren – sprich ein Tokenisieren zu verhindern.
alles zuzulassen

Ein Beispiel für die komplette Sperrung wäre ein firmeninternes Wiki. Uns beschäftigt im Artikel die Möglichkeit, die Tokenisierung zu verhindern, d. h. KI – Bots auszusperren.

Konkrete Maßnahmen zum Schutz der Webseite vor Tokenisierung

Bitte beachten: Änderungen nur vornehmen, wenn Sie sich sicher sind, die technischen Konsequenzen für Ihre Website absehen zu können.

robots.txt zum Sperren der KI-Bots

Einordnung (siehe Mindmap)
Technik:	Textdatei im Wurzelverzeichnis der Website
Level:	Gesamte Website
Syntax:	allow / disallow
Durchsetzbarkeit:	Das Crawler die robots.txt befolgen, ist leider ein ‚kann‘, aber kein ‚muss‘.

Was ist die robots.txt

Die Datei robots.txt dient dazu, Webcrawlern Anweisungen zu geben, welche Teile einer Website sie durchsuchen oder ignorieren sollen, um den Zugriff auf bestimmte Bereiche zu steuern. Dies entlastet Server, verbessert eventuell SEO und in unserem Fall ermöglicht es den Ausschluss bestimmter User-Agents.

Wo findet man die robots.txt

Entweder liegt die Datei schon im Wurzelverzeichnis der Website und kann um Einträge die nötigen Einträge ergänzt werden, die das Lesen von Websites verhindern. Ist noch keine Datei mit diesem Namen vorhanden, kann sie zunächst leer per SFTP im Rootverzeichnis erzeugt und danach mit den Einträgen bestückt werden.

Einfügbarer Code für robots.txt gegen KI-Scraping

Hier die Liste Quelle:

User-agent: GPTBot
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: Google-Extended
User-agent: Applebot-Extended
User-agent: anthropic-ai
User-agent: ClaudeBot
User-agent: Omgilibot
User-agent: Omgili
User-agent: FacebookBot
User-agent: Diffbot
User-agent: Bytespider
User-agent: ImagesiftBot
User-agent: cohere-ai
User-agent: PerplexityBot
User-agent: Meta-ExternalAgent
User-agent: Meta-ExternalFetcher
User-agent: Timpibot
Disallow: /

.htaccess um KI-Crawler auszusperren

Einordnung (siehe Mindmap)
Technik:	Datei im Wurzelverzeichnis der Website
Level:	Gesamte Website
Syntax:	Rewrite Condition (Beispiel siehe unten)
Durchsetzbarkeit:	Verbindlich. Der Apache Webserver selbst antwortet mit Forbidden

Wozu dient die .htaccess – Datei?

Die Datei .htaccess ermöglicht es Website-Betreibern, serverseitige Konfigurationsanweisungen für Verzeichnisse festzulegen um Zugriffskontrollen, Weiterleitungen und andere serverseitige Funktionen zu steuern.

Wo findet man die .htaccess – Datei?

Die Datei befindet sich im Rootverzeichnis der Webseite

Beispiel für die Veränderung der .htaccess – Datei zum verbindlichen Aussperren der KI-Bots

Nochmals der Hinweis zur Vorsicht! Hier ein Beispiel erklärt für zwei der oben genannten User-Agents:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (CCBot|cohere-ai) [NC]
RewriteRule ^ – [F]

Erklärung des Befehls zur Veränderung der .htaccess

RewriteEngine On : Dieser Befehl aktiviert das Apache mod_rewrite Modul, welches eine Möglichkeit bietet, HTTP-Anfragen zu manipulieren.

RewriteCond %{HTTP_USER_AGENT} (CCBot|cohere-ai) [NC] : Diese Bedingung überprüft den HTTP_USER_AGENT Header eingehender Anfragen. Das [NC] Flag steht für „No Case“, d.h. es wird also unabhängig von der Groß- und Kleinschreibung übereinstimmen, z.B. ccbot, CCBot, usw.

RewriteRule ^ – [F]: Diese Regel gilt für jeden URL-Pfad (^ entspricht dem Anfang jeder Zeichenkette, also gilt sie effektiv für alle Pfade). Der Bindestrich (-) gibt an, dass keine Ersetzung der URL durchgeführt werden soll. Das [F] Flag bedeutet „Forbidden“ (Verboten), es wird also für die genannten User-Agents mit HTTP 403 Forbidden geantwortet. Bitte weitere Infos in der Apache – Dokumentation selbst nachlesen.

Benutzung von Firewalls gegen KI-Bots

Der Vollständigkeit halber will ich hier noch die Benutzung von Firewalls nennen, die mir selbst aber leider nicht zur Verfügung stehen.

Level: Gesamte Website
Durchsetzbarkeit: Verbindlich.

Weitere Möglichkeiten zum Ausschluss von KI-Tokenisierung

learners.txt (Konzept)

Die Datei learners.txt ist ein vorgeschlagenes Konzept zur Kontrolle des Zugriffs von Web-Crawlern, die Daten für das Training von KI-Modellen sammeln. Robots.txt würde von normalen Suchmaschinen benutzt werden, und learners.txt von KI-Bots. Die Syntax wäre identisch. Dies würde ein Opt-Out für alle KI-Bots, welchen User-Agent sie auch immer hätten, ermöglichen. Leider hat sich das bisher noch nicht durchgesetzt. Es bleibt aber auch hier das Problem der Unverbindlichkeit, und noch nicht festgelegter Konsequenzen, sollten Bots gegen die Richtlinien verstoßen.

DO_TRAIN/NO_TRAIN (Konzept)

Einordnung (Mindmap)
Technik:	Metadaten in einer Bilddatei
Level:	Einzelne Bilddatei
Syntax:	Zusätzliches Tag in Metadaten
Durchsetzbarkeit:	Unverbindlich

Leider scheint diese Technik ebenfalls nur ein Konzept zu sein. Mit dem Image-Programm Gimp konnte ich Metadaten zwar setzen, aber kein zusätzliches Tag einführen. Bestimmt gibt es Programme, die dies können, aber es müsste ja per Default von jedem Imageprogramm vorausgefüllt sein (mit NO_TRAIN) um Wirksamkeit zu erreichen.

Schutz durch Metadaten und Data Poisoning (Vergiften der Daten)

Manipulation der Bilddatei an sich

Der Vollständigkeit halber will ich noch die Technik erwähnen, die Bilddaten an sich zu verändern.

Einordnung
Technik:	Bilddatei wird verändert.
Level:	Einzelne Bilddatei
Syntax:	–
Durchsetzbarkeit:	Verbindlich, solange das Model die Daten nicht herausrechnen kann.

Programme wie ‚Glaze‘ verändern Bilder in subtiler Weise, sodass sie für das menschliche Auge nahezu unverändert erscheinen, aber für KI-Modelle schwerer zu analysieren und zu verstehen sind. Leider scheint dies nur für jeweils bestimmte Modelle und auch nur bis zu einem gewissen Grad zu gehen (dann werden diese Manipulationen wieder sichtbar).

Bitte informieren Sie sich selbst über diese Möglichkeiten und ob sie für Sie sinnvoll sind.

Setzen eines sichtbaren Wasserzeichens

Einordnung
Technik:	Bilddatei wird verändert.
Level:	Einzelne Bilddatei
Syntax:	–
Durchsetzbarkeit:	Verbindlich. Erscheint das Bild ohne Wasserzeichen, wurde es ohne Erlaubnis kopiert.

Da unsichtbare Wasserzeichen doch sehr leicht von Programmen entfernt werden können, muss man vielleicht wieder dazu übergehen, sichtbare deutliche Wasserzeichen zu setzen, um die Urheberschaft zu kennzeichnen. Vielleicht ist dies ja auf ästhetische Weise möglich. Andererseits könnte ein Watermark absichtlich eingefügt werden, um eine Urheberschaft vorzutäuschen.

NoAI / noimageai

Einordnung
Technik:	Metadaten in Header-Abschnitt einer Website
Level:	Einzelne Datei
Syntax:	<meta name=“robots“ content=“noai“>
Durchsetzbarkeit:	Leider selten befolgt.

Einige der Crawler für Image Dateien respektieren die Anweisung <meta name=“robots“ content=“noai, noimageai“>. Vom Research-Paper wird sie als ‚symbolisch‘ und ‚begrenzter praktischer Anwendung‘ bezeichnet.

Allgemein

Opt-Out-Lösungen für den Schutz Ihrer Website vor KI-Bots

Durchsetzbarkeit der Opt-Out-Reglungen

Nachteile der Opt-Out-Reglung für die Webmaster in der Übersicht

Reichweite der Opt-Out-Maßnahmen

Konkrete Maßnahmen zum Schutz der Webseite vor Tokenisierung

robots.txt zum Sperren der KI-Bots

Was ist die robots.txt

Wo findet man die robots.txt

Einfügbarer Code für robots.txt gegen KI-Scraping

.htaccess um KI-Crawler auszusperren

Wozu dient die .htaccess – Datei?

Wo findet man die .htaccess – Datei?

Beispiel für die Veränderung der .htaccess – Datei zum verbindlichen Aussperren der KI-Bots

Erklärung des Befehls zur Veränderung der .htaccess

Benutzung von Firewalls gegen KI-Bots

Weitere Möglichkeiten zum Ausschluss von KI-Tokenisierung

learners.txt (Konzept)

DO_TRAIN/NO_TRAIN (Konzept)

Schutz durch Metadaten und Data Poisoning (Vergiften der Daten)

Manipulation der Bilddatei an sich

Setzen eines sichtbaren Wasserzeichens

NoAI / noimageai

Forum-Sprachen-Lernen

Lernen mit zweisprachingen Büchern und der Listening-Reading Methode

Allgemein

Opt-Out-Lösungen für den Schutz Ihrer Website vor KI-Bots

Durchsetzbarkeit der Opt-Out-Reglungen

Nachteile der Opt-Out-Reglung für die Webmaster in der Übersicht

Reichweite der Opt-Out-Maßnahmen

Konkrete Maßnahmen zum Schutz der Webseite vor Tokenisierung

robots.txt zum Sperren der KI-Bots

Was ist die robots.txt

Wo findet man die robots.txt

Einfügbarer Code für robots.txt gegen KI-Scraping

.htaccess um KI-Crawler auszusperren

Wozu dient die .htaccess – Datei?

Wo findet man die .htaccess – Datei?

Beispiel für die Veränderung der .htaccess – Datei zum verbindlichen Aussperren der KI-Bots

Erklärung des Befehls zur Veränderung der .htaccess

Benutzung von Firewalls gegen KI-Bots

Weitere Möglichkeiten zum Ausschluss von KI-Tokenisierung

learners.txt (Konzept)

DO_TRAIN/NO_TRAIN (Konzept)

Schutz durch Metadaten und Data Poisoning (Vergiften der Daten)

Manipulation der Bilddatei an sich

Setzen eines sichtbaren Wasserzeichens

NoAI / noimageai

Footer

Forum-Sprachen-Lernen

Lernen mit zweisprachingen Büchern und der Listening-Reading Methode