SEO & KI · Suche & KI

KI-Crawler steuern (GPTBot, ClaudeBot & Co.)

Von Jakob Sommer Zuletzt geändert am 28. Juni 2026

Neben den klassischen Suchmaschinen-Crawlern sind heute KI-Bots unterwegs, die Inhalte für Training und für Live-Antworten sammeln. Die GEO-Grundlagen streifen das Thema – hier geht es ans Eingemachte: Welche Bots gibt es, und wie steuerst du ihren Zugriff?

Die wichtigsten KI-Crawler

User-Agent	Betreiber	Zweck
`GPTBot`	OpenAI	Training
`OAI-SearchBot`	OpenAI	Live-Suche (ChatGPT)
`ClaudeBot`	Anthropic	Training
`Claude-User`	Anthropic	Live-Abruf für Antworten
`Google-Extended`	Google	KI-Training (Gemini)
`PerplexityBot`	Perplexity	Index & Antworten
`CCBot`	Common Crawl	offener Datensatz (auch KI-Training)
`Applebot-Extended`	Apple	KI-Training

Wichtig ist die Unterscheidung zwischen Trainings-Bots (sammeln Material für Modelle) und Abruf-Bots (holen Inhalte, um eine konkrete Frage live zu beantworten). Wer in KI-Antworten als Quelle auftauchen will, sollte vor allem die Abruf-Bots zulassen.

Steuern per robots.txt

Die Steuerung läuft über User-Agent-Regeln in der robots.txt. Beispiel: Training aussperren, Live-Abruf erlauben.

# Training untersagen
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# Live-Abruf für Antworten erlauben
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Google-Extended steuert übrigens nur die KI-Nutzung – dein normales Google-Ranking bleibt davon unberührt, dafür ist weiter der Googlebot zuständig.

Randnotiz – robots.txt ist freiwillig. Die Datei ist eine Bitte, kein Riegel. Seriöse Anbieter halten sich daran, andere ignorieren sie. Wer den Zugriff technisch erzwingen will, muss auf Serverebene blocken (z. B. nach User-Agent oder IP). Und: Eine Disallow-Regel verhindert das Crawlen, nicht zwingend, dass eine bereits anderswo bekannte URL erwähnt wird.

Die Abwägung

Es gibt keine pauschal richtige Antwort:

Zulassen bringt Sichtbarkeit in KI-Antworten – gut für Wissensseiten, die gefunden werden wollen. Diese Website lässt KI-Crawler bewusst zu.
Aussperren schützt Inhalte vor der Verwertung im Training – sinnvoll bei exklusiven oder kostenpflichtigen Inhalten, kostet aber Reichweite.

In Deutschland kommt eine rechtliche Ebene hinzu: Mit einem maschinenlesbaren Nutzungsvorbehalt (Text-und-Data-Mining-Opt-out) lässt sich der Verwendung für KI-Training widersprechen. Das ist ein juristisches Thema – hier kein Rechtsrat, sondern der Hinweis, dass robots.txt und rechtlicher Vorbehalt zwei verschiedene Dinge sind.

Häufige Fehler

Alle KI-Bots blocken und sich wundern, warum man in keiner KI-Antwort auftaucht.
Google-Extended mit Googlebot verwechseln und so das normale Ranking gefährden wollen (geht damit gar nicht).
Tippfehler im User-Agent – dann greift die Regel nicht.
robots.txt für echten Schutz halten statt auf Serverebene zu blocken.

Häufige Fragen

Schadet das Zulassen von KI-Bots meinem SEO?

Nein. Die KI-Crawler sind getrennt von den Suchmaschinen-Crawlern. Das normale Ranking hängt am Googlebot, nicht an GPTBot oder Google-Extended.

Woher weiß ich, welche Bots mich besuchen?

Aus den Server-Logs: Dort stehen die User-Agents. So siehst du, wer tatsächlich vorbeischaut, und kannst Regeln gezielt setzen.

Was ist mit der llms.txt?

Die llms.txt ist ein anderer Ansatz: Sie lädt ein und weist den Weg zu Kerninhalten, statt zu blocken. Beides ergänzt sich.

Fazit

KI-Crawler steuerst du über User-Agent-Regeln in der robots.txt – mit der wichtigen Unterscheidung zwischen Trainings- und Abruf-Bots. Die Entscheidung ist eine Abwägung zwischen Sichtbarkeit und Kontrolle. Und sie hat Grenzen: robots.txt ist freiwillig, echter Schutz braucht den Server. Für Sichtbarkeit in KI-Antworten zählt am Ende dasselbe wie bei GEO – zugänglich und vertrauenswürdig zu sein.

Semantik & SEO
Warum semantisches HTML die Grundlage für gutes Ranking ist und wie Suchmaschinen strukturierte Inhalte besser verstehen.
GEO-Grundlagen (KI-Suche)
Generative Engine Optimization erklärt: Wie du Inhalte für KI-Antworten und LLM-basierte Suche optimierst.
AI Overviews & SGE
Wie Googles KI-Übersichten und KI-Suchsysteme Inhalte auswählen und zitieren – und wie du die Chance erhöhst, Teil der Antwort zu sein.
Strukturierte Daten / Schema.org
JSON-LD und Schema.org praktisch nutzen: Organization, Article, BreadcrumbList & Co. für Rich Results und besseres Verständnis.