Robots.txt: Vollständiger Leitfaden für SEO in 2026
· 12 Min. Lesezeit
Inhaltsverzeichnis
Robots.txt ist eine einfache Textdatei, die sich im Stammverzeichnis Ihrer Website befindet und Suchmaschinen-Crawlern mitteilt, auf welche Seiten sie zugreifen können und welche sie überspringen sollen. Obwohl es sich nur um eine einfache Textdatei handelt, kann eine falsch konfigurierte robots.txt Ihre SEO-Bemühungen vollständig zunichtemachen — indem sie versehentlich wichtige Seiten von der Indexierung ausschließt, wertvolles Crawl-Budget für irrelevante Inhalte verschwendet oder sensible Bereiche offenlegt, die Sie privat halten wollten.
Dieser umfassende Leitfaden deckt alles ab, was Sie über robots.txt-Dateien wissen müssen, von der grundlegenden Syntax bis zu fortgeschrittenen Optimierungstechniken. Egal, ob Sie einen kleinen Blog oder eine riesige E-Commerce-Website mit Millionen von Seiten verwalten, das Verständnis von robots.txt ist für effektives SEO unerlässlich.
🛠️ Schnelles Tool: Müssen Sie jetzt sofort eine robots.txt-Datei erstellen? Verwenden Sie unseren Robots.txt-Generator, um in Sekundenschnelle eine korrekt formatierte Datei zu erstellen.
Was ist Robots.txt?
Die robots.txt-Datei befindet sich unter ihreseite.de/robots.txt und folgt dem Robots Exclusion Protocol, einem 1994 etablierten Standard. Wenn ein Suchmaschinen-Crawler Ihre Website besucht, ist das allererste, was er tut, nach dieser Datei zu suchen. Betrachten Sie es als eine Reihe von Anweisungen, die an der Haustür Ihrer Website angebracht sind.
Die Datei enthält Direktiven, die bestimmten Crawlern (oder allen Crawlern) mitteilen, auf welche URL-Pfade sie zugreifen dürfen und welche sie meiden sollten. Es ist wichtig zu verstehen, dass robots.txt beratend, nicht verpflichtend ist. Gut erzogene Crawler von Google, Bing und anderen großen Suchmaschinen respektieren diese Direktiven, aber bösartige Bots oder Scraper können sie vollständig ignorieren.
Hier ist, was robots.txt kann und nicht kann:
| Was Robots.txt KANN | Was Robots.txt NICHT KANN |
|---|---|
| Steuern, auf welche Seiten Crawler zugreifen | Verhindern, dass Seiten in Suchergebnissen erscheinen |
| Crawl-Budget-Zuweisung verwalten | Passwortschutz bereitstellen |
| Sitemap-Standorte angeben | Bösartige Bots stoppen (sie ignorieren es) |
| Crawl-Verzögerungen für bestimmte Bots festlegen | Bereits indexierte Seiten entfernen |
Profi-Tipp: Wenn Sie Inhalte aus Suchergebnissen entfernen müssen, verwenden Sie stattdessen das noindex-Meta-Tag oder den X-Robots-Tag-HTTP-Header. Das Blockieren mit robots.txt verhindert tatsächlich, dass Crawler die noindex-Direktive sehen, was nach hinten losgehen kann.
Wie Robots.txt funktioniert
Das Verständnis des Crawler-Workflows hilft Ihnen, robots.txt effektiv zu nutzen. Hier ist genau das, was passiert, wenn ein Suchmaschinen-Bot Ihre Website besucht:
- Erste Anfrage: Der Crawler versucht,
/robots.txtabzurufen, bevor er auf eine andere Seite zugreift - Datei-Parsing: Wenn gefunden, liest und analysiert der Crawler die für seinen User-Agent relevanten Direktiven
- Regelanwendung: Der Crawler wendet die spezifischsten übereinstimmenden Regeln an, um zu bestimmen, auf welche URLs er zugreifen kann
- Crawling beginnt: Der Crawler beginnt, erlaubte Seiten abzurufen, während er alle Crawl-Delay-Direktiven respektiert
- Cache-Dauer: Die meisten Crawler cachen robots.txt für 24 Stunden, bevor sie nach Updates suchen
Wenn Ihre robots.txt-Datei einen 404-Fehler zurückgibt, gehen Crawler davon aus, dass sie die Berechtigung haben, auf alles zuzugreifen. Wenn sie einen 5xx-Serverfehler zurückgibt, pausieren sie normalerweise das Crawling vorübergehend und versuchen es später erneut.
User-Agent-Matching-Priorität
Wenn mehrere User-Agent-Blöcke auf einen einzelnen Crawler zutreffen könnten, folgen Suchmaschinen einer bestimmten Prioritätsreihenfolge. Google verwendet beispielsweise die spezifischste User-Agent-Übereinstimmung. Wenn Sie sowohl User-agent: * als auch User-agent: Googlebot haben, folgt Googlebot nur den Googlebot-spezifischen Regeln.
Innerhalb eines einzelnen User-Agent-Blocks gewinnt die spezifischste Regel, wenn sowohl Allow- als auch Disallow-Regeln auf eine URL zutreffen könnten. Die Spezifität wird durch die Länge des Pfades bestimmt — längere Pfade sind spezifischer.
Syntaxregeln und Direktiven
Robots.txt verwendet eine einfache, aber präzise Syntax. Jedes Zeichen zählt, und kleine Fehler können große Konsequenzen haben. Lassen Sie uns jede Direktive aufschlüsseln und wie man sie korrekt verwendet.
Grundstruktur
# Kommentare beginnen mit Rautezeichen
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /admin/public/
User-agent: Googlebot
Disallow: /private/
Crawl-delay: 10
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml
Kerndirektiven erklärt
User-agent: Gibt an, für welchen Crawler die folgenden Regeln gelten. Verwenden Sie * als Platzhalter, um alle Crawler anzusprechen. Häufige User-Agents umfassen:
Googlebot— Googles Haupt-CrawlerGooglebot-Image— Googles Bild-CrawlerBingbot— Microsoft Bings CrawlerSlurp— Yahoos Crawler (verwendet jetzt Bing)DuckDuckBot— DuckDuckGos CrawlerBaiduspider— Baidus Crawler (chinesische Suchmaschine)
Disallow: Blockiert den Zugriff auf bestimmte URL-Pfade. Der Pfad ist groß-/kleinschreibungsabhängig und muss mit / beginnen. Ein leeres Disallow (Disallow:) bedeutet, alles zu erlauben.
Allow: Erstellt Ausnahmen innerhalb nicht erlaubter Pfade. Dies ist besonders nützlich, wenn Sie ein Verzeichnis blockieren, aber bestimmte Dateien oder Unterverzeichnisse darin erlauben möchten.
Sitemap: Verweist Crawler auf Ihre XML-Sitemap(s). Sie können mehrere Sitemap-Direktiven einschließen. Dies ist besonders hilfreich für Websites mit mehreren Sitemaps für verschiedene Inhaltstypen.
Crawl-delay: Gibt die Anzahl der Sekunden an, die Crawler zwischen Anfragen warten sollen. Beachten Sie, dass Googlebot diese Direktive ignoriert — verwenden Sie die Google Search Console, um die Crawl-Rate anzupassen.
Musterabgleich mit Platzhaltern
Modernes robots.txt unterstützt zwei Sonderzeichen für den Musterabgleich:
| Zeichen | Bedeutung | Beispiel | Passt auf |
|---|---|---|---|
* |
Passt auf jede Zeichenfolge | Disallow: /*.pdf$ |
Alle PDF-Dateien überall auf der Website |
$ |
Verankert am Ende der URL | Disallow: /private$ |
/private aber nicht /private/page |
Praktische Musterbeispiele
# Alle URLs mit Abfrageparametern blockieren
Disallow: /*?
# Alle URLs mit bestimmtem Parameter blockieren
Disallow: /*?sessionid=
# Alle PDF-Dateien blockieren
Disallow: /*.pdf$
# Alle URLs blockieren, die mit bestimmter Erweiterung enden
Disallow: /*.php$
# URLs blockieren, die bestimmte Zeichenfolge enthalten
Disallow: /*sort=
# Mehrere Dateitypen blockieren
Disallow: /*.json$
Disallow: /*.xml$
Disallow: /*.txt$
Schneller Tipp: Testen Sie Ihren Musterabgleich mit unserem Robots.txt-Tester, um sicherzustellen, dass Ihre Platzhalter wie erwartet funktionieren, bevor Sie sie in der Produktion einsetzen.
Häufige Anwendungsfälle und Regeln
Schauen wir uns reale Szenarien an, in denen sich robots.txt als unschätzbar wertvoll erweist. Diese Beispiele decken die häufigsten Situationen ab, denen Sie bei der Verwaltung der Crawl-Direktiven einer Website begegnen werden.
Verwaltungsbereiche blockieren
Jedes CMS hat Verwaltungsbereiche, die niemals in Suchergebnissen erscheinen sollten. Diese Seiten verschwenden Crawl-Budget und können sensible Informationen über die Infrastruktur Ihrer Website offenlegen.
# WordPress
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Allow: /wp-content/uploads/
# Drupal
Disallow: /admin/
Disallow: /user/
Disallow: /node/add/
# Magento
Disallow: /admin/
Disallow: /downloader/
Disallow: /customer/account/
Duplicate-Content-Probleme verhindern
E-Commerce-Websites und Blogs erzeugen oft doppelte Inhalte durch Sortierung, Filterung und Paginierung. Blockieren Sie diese Variationen, um Ranking-Signale zu konsolidieren.
# Sortier- und Filterparameter blockieren
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?color=
Disallow: /*?size=
# Suchergebnisseiten blockieren
Disallow: /search
Disallow: /?s=
Disallow: /search-results/
# Tag- und Kategorie-Paginierung blockieren
Disallow: /tag/*/page/
Disallow: /category/*/page/
# Druckversionen blockieren
Disallow: /*/print$
Disallow: /*?print=
Staging- und Entwicklungsumgebungen verwalten
Wenn Ihre Staging-Website öffentlich zugänglich ist (auch mit einer anderen Subdomain), müssen Sie sie unbedingt von der Indexierung ausschließen, um Duplicate-Content-Strafen zu vermeiden.
# Gesamte Staging-Umgebung blockieren
User-agent: *
Disallow: /
# Oder Staging-Unterverzeichnis blockieren
Disallow: /staging/
Disallow: /dev/
Disallow: /test/
Kritische Ressourcen für das Rendering erlauben
Google benötigt Zugriff auf CSS- und JavaScript-Dateien, um Ihre Seiten ordnungsgemäß zu rendern und zu verstehen. Blockieren Sie diese Ressourcen niemals, es sei denn, Sie haben einen bestimmten Grund.
User-agent: *
# Den größten Teil von wp-content blockieren
Disallow: /wp-content/
# Aber kritische Rendering-Ressourcen erlauben
Allow: /wp-content/uploads/
Allow: /wp-content/themes/*.css
Allow: /wp-content/themes/*.js
Allow: /wp-content/plugins/*.css
Allow: /wp-content/plugins/*.js
Sitemap-Deklaration
Fügen Sie immer Ihren Sitemap-Standort(e) in robots.txt ein. Dies hilft Crawlern, Ihre Inhalte effizienter zu entdecken, auch wenn Sie Sitemaps bereits über die Search Console eingereicht haben.
# Einzelne Sitemap
Sitemap: https://example.com/sitemap.xml
# Mehrere Sitemaps für verschiedene Inhaltstypen
Sitemap: https://example.com/sitemap-pages.xml
Sitemap: https://example.com/sitemap-posts.xml
Sitemap: https://example.com/sitemap-products.xml
Sitemap: https://example.com/sitemap-images.xml
Profi-Tipp: Verwenden Sie unseren Sitemap-Generator, um umfassende XML-Sitemaps zu erstellen, die Ihre robots.txt-Konfiguration ergänzen.
Crawl-Budget-Optimierung verstehen
Crawl-Budget bezieht sich auf die Anzahl der Seiten, auf die ein Suchmaschinen-Crawler während eines bestimmten Zeitraums auf Ihrer Website zugreift. Für kleine Websites mit weniger als 1.000 Seiten ist das Crawl-Budget selten ein Problem — Google wird Ihre gesamte Website problemlos regelmäßig crawlen.
Für große Websites mit Zehntausenden oder Millionen von Seiten wird die Crawl-Budget-Optimierung jedoch