SEO & KI · Technisches SEO

robots.txt & XML-Sitemaps einrichten

Von Jakob Sommer Zuletzt geändert am 28. Juni 2026

Zwei kleine Dateien lenken, wie Suchmaschinen mit deiner Website umgehen: Die robots.txt sagt, was gecrawlt werden darf, die XML-Sitemap zeigt, welche Seiten es gibt. Beide lassen sich gut automatisch aus der Inhaltsquelle erzeugen – genau das macht diese Website.

Die robots.txt

Die robots.txt liegt im Wurzelverzeichnis (/robots.txt) und steuert das Crawlen. Ein typischer, offener Aufbau:

User-agent: *
Allow: /

Sitemap: https://example.de/sitemap-index.xml

User-agent adressiert einen Bot (oder * für alle).
Disallow sperrt Pfade fürs Crawlen, Allow gibt sie frei.
Der Sitemap-Verweis hilft Crawlern, deine Sitemap zu finden.

So sperrst du gezielt einen Bereich – oder steuerst KI-Crawler:

User-agent: *
Disallow: /intern/

Randnotiz – Disallow ist nicht Noindex. Das ist die häufigste Verwechslung: Disallow verhindert das Crawlen, nicht zwingend das Indexieren. Eine gesperrte, aber anderweitig verlinkte URL kann trotzdem im Index landen – ohne Beschreibung. Wenn eine Seite nicht erscheinen soll, gehört <meta name="robots" content="noindex"> auf die Seite – und die darf dann nicht per robots.txt gesperrt sein, sonst liest der Bot das Noindex nie.

Die XML-Sitemap

Die Sitemap ist eine maschinenlesbare Liste deiner URLs – eine Einladung, alles Wichtige zu finden, besonders bei vielen oder tief verschachtelten Seiten.

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.de/seo-und-ki/robots-txt-und-sitemaps.html</loc>
    <lastmod>2026-06-28</lastmod>
  </url>
</urlset>

lastmod signalisiert das letzte Änderungsdatum – ehrlich pflegen, nicht künstlich aktuell halten.
Automatisch erzeugen: Aus der Inhaltsquelle generiert, bleibt die Sitemap immer vollständig und aktuell. Diese Seite baut sie beim Build.
In der Search Console einreichen, damit Google sie sicher kennt.

Zusammenspiel

Die beiden ergänzen sich: Die robots.txt verweist auf die Sitemap, die Sitemap listet die crawlbaren Seiten. Gesperrte Seiten gehören nicht in die Sitemap.

Häufige Fehler

Mit Disallow: / versehentlich die ganze Seite sperren (klassischer Launch-Unfall).
Disallow statt Noindex nutzen, um Seiten aus dem Index zu halten.
Sitemap mit gesperrten oder weitergeleiteten URLs füllen.
lastmod fälschen – das untergräbt das Vertrauen in die Angabe.
robots.txt nicht im Wurzelverzeichnis ablegen (dann wird sie ignoriert).

Häufige Fragen

Brauche ich überhaupt eine robots.txt?

Nicht zwingend – ohne sie wird alles gecrawlt. Sinnvoll ist sie für den Sitemap-Verweis und um einzelne Bereiche oder Bots zu steuern.

Wie groß darf eine Sitemap sein?

Bis zu 50.000 URLs bzw. 50 MB pro Datei. Darüber teilst du auf und bündelst sie in einer Sitemap-Index-Datei.

Wird meine Seite ohne Sitemap gefunden?

Ja, über interne und externe Links. Die Sitemap beschleunigt und vervollständigt das Auffinden – ein Sicherheitsnetz, besonders bei neuen oder großen Seiten.

Fazit

Die robots.txt steuert das Crawlen und verweist auf die Sitemap; die XML-Sitemap listet deine Seiten samt lastmod. Der wichtigste Merksatz: Disallow ≠ Noindex. Wer beide Dateien automatisch aus der Inhaltsquelle erzeugt, hält sie mühelos korrekt – und ergänzt das mit sauberen Canonicals.

Canonical & Duplicate Content
Wie du doppelte Inhalte vermeidest, den Canonical-Tag richtig setzt und mit hreflang mehrsprachige Seiten sauber auszeichnest.
Open Graph & Social-Vorschauen
Wie geteilte Links auf Social Media und in Messengern als Vorschaukarte erscheinen – mit den richtigen Open-Graph- und Twitter-Tags.
Title-Tag & Meta-Description
Wie du Seitentitel und Meta-Descriptions schreibst, die in der Suche klickstark sind – Länge, Aufbau und die häufigsten Fehler.
Suchintention verstehen
Die vier Typen der Suchintention erkennen und Inhalte darauf ausrichten – damit deine Seite die Frage beantwortet, die wirklich gestellt wird.