SEO & KI · Suche & KI
KI-Crawler steuern (GPTBot, ClaudeBot & Co.)
Neben den klassischen Suchmaschinen-Crawlern sind heute KI-Bots unterwegs, die Inhalte für Training und für Live-Antworten sammeln. Die GEO-Grundlagen streifen das Thema – hier geht es ans Eingemachte: Welche Bots gibt es, und wie steuerst du ihren Zugriff?
Die wichtigsten KI-Crawler
| User-Agent | Betreiber | Zweck |
|---|---|---|
GPTBot |
OpenAI | Training |
OAI-SearchBot |
OpenAI | Live-Suche (ChatGPT) |
ClaudeBot |
Anthropic | Training |
Claude-User |
Anthropic | Live-Abruf für Antworten |
Google-Extended |
KI-Training (Gemini) | |
PerplexityBot |
Perplexity | Index & Antworten |
CCBot |
Common Crawl | offener Datensatz (auch KI-Training) |
Applebot-Extended |
Apple | KI-Training |
Wichtig ist die Unterscheidung zwischen Trainings-Bots (sammeln Material für Modelle) und Abruf-Bots (holen Inhalte, um eine konkrete Frage live zu beantworten). Wer in KI-Antworten als Quelle auftauchen will, sollte vor allem die Abruf-Bots zulassen.
Steuern per robots.txt
Die Steuerung läuft über User-Agent-Regeln in der robots.txt. Beispiel: Training aussperren, Live-Abruf erlauben.
# Training untersagen
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
# Live-Abruf für Antworten erlauben
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
Google-Extended steuert übrigens nur die KI-Nutzung – dein normales Google-Ranking bleibt davon unberührt, dafür ist weiter der Googlebot zuständig.
Randnotiz – robots.txt ist freiwillig. Die Datei ist eine Bitte, kein Riegel. Seriöse Anbieter halten sich daran, andere ignorieren sie. Wer den Zugriff technisch erzwingen will, muss auf Serverebene blocken (z. B. nach User-Agent oder IP). Und: Eine
Disallow-Regel verhindert das Crawlen, nicht zwingend, dass eine bereits anderswo bekannte URL erwähnt wird.
Die Abwägung
Es gibt keine pauschal richtige Antwort:
- Zulassen bringt Sichtbarkeit in KI-Antworten – gut für Wissensseiten, die gefunden werden wollen. Diese Website lässt KI-Crawler bewusst zu.
- Aussperren schützt Inhalte vor der Verwertung im Training – sinnvoll bei exklusiven oder kostenpflichtigen Inhalten, kostet aber Reichweite.
In Deutschland kommt eine rechtliche Ebene hinzu: Mit einem maschinenlesbaren Nutzungsvorbehalt (Text-und-Data-Mining-Opt-out) lässt sich der Verwendung für KI-Training widersprechen. Das ist ein juristisches Thema – hier kein Rechtsrat, sondern der Hinweis, dass robots.txt und rechtlicher Vorbehalt zwei verschiedene Dinge sind.
Häufige Fehler
- Alle KI-Bots blocken und sich wundern, warum man in keiner KI-Antwort auftaucht.
-
Google-ExtendedmitGooglebotverwechseln und so das normale Ranking gefährden wollen (geht damit gar nicht). - Tippfehler im User-Agent – dann greift die Regel nicht.
- robots.txt für echten Schutz halten statt auf Serverebene zu blocken.
Häufige Fragen
Schadet das Zulassen von KI-Bots meinem SEO?
Nein. Die KI-Crawler sind getrennt von den Suchmaschinen-Crawlern. Das normale Ranking hängt am Googlebot, nicht an GPTBot oder Google-Extended.
Woher weiß ich, welche Bots mich besuchen?
Aus den Server-Logs: Dort stehen die User-Agents. So siehst du, wer tatsächlich vorbeischaut, und kannst Regeln gezielt setzen.
Was ist mit der llms.txt?
Die llms.txt ist ein anderer Ansatz: Sie lädt ein und weist den Weg zu Kerninhalten, statt zu blocken. Beides ergänzt sich.
Fazit
KI-Crawler steuerst du über User-Agent-Regeln in der robots.txt – mit der wichtigen Unterscheidung zwischen Trainings- und Abruf-Bots. Die Entscheidung ist eine Abwägung zwischen Sichtbarkeit und Kontrolle. Und sie hat Grenzen: robots.txt ist freiwillig, echter Schutz braucht den Server. Für Sichtbarkeit in KI-Antworten zählt am Ende dasselbe wie bei GEO – zugänglich und vertrauenswürdig zu sein.