SEO & KI · Technisches SEO
robots.txt & XML-Sitemaps einrichten
Zwei kleine Dateien lenken, wie Suchmaschinen mit deiner Website umgehen: Die robots.txt sagt, was gecrawlt werden darf, die XML-Sitemap zeigt, welche Seiten es gibt. Beide lassen sich gut automatisch aus der Inhaltsquelle erzeugen – genau das macht diese Website.
Die robots.txt
Die robots.txt liegt im Wurzelverzeichnis (/robots.txt) und steuert das Crawlen. Ein typischer, offener Aufbau:
User-agent: *
Allow: /
Sitemap: https://example.de/sitemap-index.xml
User-agentadressiert einen Bot (oder*für alle).Disallowsperrt Pfade fürs Crawlen,Allowgibt sie frei.- Der
Sitemap-Verweis hilft Crawlern, deine Sitemap zu finden.
So sperrst du gezielt einen Bereich – oder steuerst KI-Crawler:
User-agent: *
Disallow: /intern/
Randnotiz – Disallow ist nicht Noindex. Das ist die häufigste Verwechslung:
Disallowverhindert das Crawlen, nicht zwingend das Indexieren. Eine gesperrte, aber anderweitig verlinkte URL kann trotzdem im Index landen – ohne Beschreibung. Wenn eine Seite nicht erscheinen soll, gehört<meta name="robots" content="noindex">auf die Seite – und die darf dann nicht per robots.txt gesperrt sein, sonst liest der Bot das Noindex nie.
Die XML-Sitemap
Die Sitemap ist eine maschinenlesbare Liste deiner URLs – eine Einladung, alles Wichtige zu finden, besonders bei vielen oder tief verschachtelten Seiten.
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.de/seo-und-ki/robots-txt-und-sitemaps.html</loc>
<lastmod>2026-06-28</lastmod>
</url>
</urlset>
-
lastmodsignalisiert das letzte Änderungsdatum – ehrlich pflegen, nicht künstlich aktuell halten. - Automatisch erzeugen: Aus der Inhaltsquelle generiert, bleibt die Sitemap immer vollständig und aktuell. Diese Seite baut sie beim Build.
- In der Search Console einreichen, damit Google sie sicher kennt.
Zusammenspiel
Die beiden ergänzen sich: Die robots.txt verweist auf die Sitemap, die Sitemap listet die crawlbaren Seiten. Gesperrte Seiten gehören nicht in die Sitemap.
Häufige Fehler
-
Mit
Disallow: /versehentlich die ganze Seite sperren (klassischer Launch-Unfall). - Disallow statt Noindex nutzen, um Seiten aus dem Index zu halten.
- Sitemap mit gesperrten oder weitergeleiteten URLs füllen.
-
lastmodfälschen – das untergräbt das Vertrauen in die Angabe. - robots.txt nicht im Wurzelverzeichnis ablegen (dann wird sie ignoriert).
Häufige Fragen
Brauche ich überhaupt eine robots.txt?
Nicht zwingend – ohne sie wird alles gecrawlt. Sinnvoll ist sie für den Sitemap-Verweis und um einzelne Bereiche oder Bots zu steuern.
Wie groß darf eine Sitemap sein?
Bis zu 50.000 URLs bzw. 50 MB pro Datei. Darüber teilst du auf und bündelst sie in einer Sitemap-Index-Datei.
Wird meine Seite ohne Sitemap gefunden?
Ja, über interne und externe Links. Die Sitemap beschleunigt und vervollständigt das Auffinden – ein Sicherheitsnetz, besonders bei neuen oder großen Seiten.
Fazit
Die robots.txt steuert das Crawlen und verweist auf die Sitemap; die XML-Sitemap listet deine Seiten samt lastmod. Der wichtigste Merksatz: Disallow ≠ Noindex. Wer beide Dateien automatisch aus der Inhaltsquelle erzeugt, hält sie mühelos korrekt – und ergänzt das mit sauberen Canonicals.