Crawling & Indexierung – SEO-Ratgeber

Was sind Crawling und Indexierung?

Crawling und Indexierung sind die zwei grundlegenden Prozesse, durch die Suchmaschinen wie Google Webseiten entdecken, analysieren und in ihren Suchindex aufnehmen. Ohne erfolgreichen Durchlauf beider Prozesse kann eine Webseite in den Suchergebnissen nicht erscheinen, unabhängig davon, wie gut ihr Content oder ihre Backlinks sind.

Crawling bezeichnet den Vorgang, bei dem ein Suchmaschinen-Bot (bei Google der Googlebot) systematisch das Internet durchsucht, indem er Links von einer Seite zur nächsten folgt. Der Googlebot ladet dabei den HTML-Code, CSS, JavaScript und andere Ressourcen jeder Seite herunter, um deren Inhalt zu erfassen. Man kann sich den Googlebot als einen automatisierten Leser vorstellen, der das gesamte Internet über Hyperlinks durchsurft.

Indexierung ist der nachgelagerte Prozess, bei dem Google die gecrawlten Seiten analysiert, ihren Inhalt versteht, sie kategorisiert und in den Suchindex aufnimmt. Der Google-Index ist eine riesige Datenbank, die Hunderte von Milliarden von Webseiten umfasst. Nur Seiten, die im Index enthalten sind, können in den Suchergebnissen erscheinen. Die Indexierung umfasst die Textanalyse, das Erkennen von Duplikaten, die Bewertung der Canonical-URL, das Parsen von strukturierten Daten und die Einordnung in thematische Cluster.

Für SEO-Experten ist das Verständnis von Crawling und Indexierung essenziell, da viele technische Probleme, die Rankings verhindern, in diesen beiden Prozessen wurzeln. Eine Seite, die nicht gecrawlt wird, kann nicht indexiert werden. Eine Seite, die gecrawlt, aber nicht indexiert wird, erscheint nicht in den Suchergebnissen. Die Steuerung beider Prozesse gehört zu den Kernaufgaben des Technical SEO.

Der Crawling-Prozess im Detail

Der Googlebot arbeitet mit einer sogenannten Crawl-Queue (Warteschlange), in der URLs nach Priorität geordnet sind. Diese Priorität wird durch verschiedene Faktoren bestimmt, darunter die Autorität der Domain, die Änderungshäufigkeit der Seite und die Anzahl eingehender Links.

Wie der Googlebot Seiten entdeckt

Der Googlebot entdeckt neue URLs auf verschiedenen Wegen:

Interne Links: Der Googlebot folgt Links auf bereits bekannten Seiten. Eine solide interne Verlinkung ist daher fundamental für das Crawling.
XML-Sitemaps: Die XML-Sitemap liefert dem Googlebot eine Liste aller relevanten URLs direkt.
Externe Links: Backlinks von anderen Websites führen den Googlebot zu Ihren Seiten.
Google Search Console: Die URL-Inspektions-Funktion ermöglicht das manuelle Einreichen einzelner URLs.
Sitemaps in der robots.txt: Die robots.txt kann auf die Sitemap verweisen und dem Googlebot deren Standort mitteilen.

Crawl-Budget: Was es ist und warum es wichtig ist

Das Crawl-Budget ist die Anzahl an Seiten, die der Googlebot innerhalb eines bestimmten Zeitraums auf Ihrer Website crawlt. Es setzt sich aus zwei Faktoren zusammen:

Crawl Rate Limit: Die maximale Crawling-Geschwindigkeit, die Google verwendet, ohne den Server zu überlasten. Schnelle Server mit guter Seitengeschwindigkeit erhalten ein höheres Limit.
Crawl Demand: Wie häufig Google Ihre Seiten crawlen möchte, basierend auf deren Beliebtheit und Änderungshäufigkeit. Häufig aktualisierte, beliebte Seiten werden öfter gecrawlt.

Für kleine bis mittelgroße Websites (unter 10.000 Seiten) ist das Crawl-Budget in der Regel kein limitierender Faktor. Für große Websites mit Hunderttausenden oder Millionen von Seiten (E-Commerce-Shops, Nachrichtenportale, Jobbörsen) ist die effiziente Nutzung des Crawl-Budgets hingegen kritisch für die SEO-Performance.

Wichtig: Google hat klargestellt, dass das Crawl-Budget für die meisten Websites kein Problem darstellt. Wenn Ihre Website weniger als einige Tausend Seiten hat und gut verlinkt ist, werden alle Seiten in der Regel problemlos gecrawlt. Fokussieren Sie sich auf das Crawl-Budget nur, wenn Sie eine sehr große Website betreiben oder wenn die Google Search Console Crawling-Probleme anzeigt.

JavaScript-Rendering und Crawling

Ein zunehmend wichtiges Thema ist das Crawling von JavaScript-basierten Websites. Google kann JavaScript rendern, aber der Prozess erfolgt in zwei Phasen:

Erste Welle (HTML-Crawling): Der Googlebot lädt das HTML-Dokument und verarbeitet Links und Meta-Tags, die direkt im HTML stehen.
Zweite Welle (Rendering): Zu einem späteren Zeitpunkt rendert Google die Seite mit JavaScript, um dynamisch generierte Inhalte zu erfassen. Diese Verzögerung kann Tage bis Wochen betragen.

Für SEO-kritische Inhalte ist es daher ratsam, Server-Side Rendering (SSR) oder Static Site Generation (SSG) zu verwenden, damit der Content sofort im HTML verfügbar ist und nicht auf das JavaScript-Rendering warten muss.

Der Indexierungsprozess im Detail

Nachdem der Googlebot eine Seite gecrawlt hat, beginnt der Indexierungsprozess. Dieser ist deutlich komplexer als das blosse Speichern des Seiteninhalts und umfasst mehrere Schritte.

Von der gecrawlten Seite zum Index-Eintrag

Textanalyse: Google extrahiert den Text, identifiziert die Sprache, erkennt Entitäten und analysiert die thematische Relevanz.
Duplikat-Erkennung: Google vergleicht den Inhalt mit bereits indexierten Seiten, um Duplicate Content zu identifizieren.
Canonical-Bestimmung: Bei mehreren Versionen derselben Seite wählt Google die kanonische URL als primäre Version für den Index.
Strukturierte Daten: Schema.org-Markup wird geparst und für Rich Results verwendet.
Signal-Erfassung: Google erfasst Ranking-Signale wie Title-Tags, Überschriften, Meta-Descriptions und Linkstrukturen.

Indexierungsprobleme erkennen

Nicht jede gecrawlte Seite wird auch indexiert. Google entscheidet anhand verschiedener Kriterien, ob eine Seite in den Index aufgenommen wird. Die häufigsten Gründe für Nicht-Indexierung sind:

Problem	Ursache	Lösung
Crawled - currently not indexed	Seite gecrawlt, aber als qualitativ unzureichend eingestuft	Content-Qualität verbessern, einzigartige Inhalte erstellen
Discovered - currently not indexed	URL bekannt, aber noch nicht gecrawlt	Interne Verlinkung stärken, URL in Search Console einreichen
Excluded by noindex	Meta-Robots-Tag mit noindex	noindex entfernen, wenn die Seite indexiert werden soll
Blocked by robots.txt	Crawling durch robots.txt blockiert	Robots.txt anpassen
Duplicate, submitted URL not selected as canonical	Google wählt eine andere URL als Canonical	Canonical-Tag korrekt setzen, Duplikate konsolidieren
Soft 404	Seite liefert 200-Status, aber keinen sinnvollen Inhalt	Entweder Content hinzufügen oder 404/410 zurückgeben

Crawling und Indexierung steuern

SEO-Experten haben verschiedene Werkzeuge zur Verfügung, um das Crawling und die Indexierung gezielt zu steuern. Die korrekte Anwendung dieser Werkzeuge ist entscheidend für eine effiziente SEO-Strategie.

Meta-Robots-Tag

Der Meta-Robots-Tag im HTML-Head gibt Suchmaschinen Anweisungen zur Indexierung und Link-Verfolgung:

<!-- Standardwert (muss nicht explizit gesetzt werden) -->
<meta name="robots" content="index, follow">

<!-- Seite nicht indexieren, aber Links folgen -->
<meta name="robots" content="noindex, follow">

<!-- Seite indexieren, aber Links nicht folgen -->
<meta name="robots" content="index, nofollow">

<!-- Seite weder indexieren noch Links folgen -->
<meta name="robots" content="noindex, nofollow">

<!-- Zusätzliche Anweisungen -->
<meta name="robots" content="noarchive">  <!-- Kein Cache-Link in SERPs -->
<meta name="robots" content="nosnippet">  <!-- Kein Snippet anzeigen -->
<meta name="robots" content="max-snippet:160">  <!-- Snippet-Länge begrenzen -->
<meta name="robots" content="max-image-preview:large">  <!-- Bildvorschau-Größe -->

<!-- X-Robots-Tag als HTTP-Header (für PDFs, Bilder etc.) -->
<!-- Apache .htaccess -->
<FilesMatch "\.pdf$">
    Header set X-Robots-Tag "noindex"
</FilesMatch>

Canonical-Tag

Der Canonical-Tag hilft Google, bei mehreren Versionen einer Seite die bevorzugte URL zu identifizieren. Dies ist besonders relevant bei Parametrisierung, Sortierung und Filterung:

<!-- Selbst-referenzierender Canonical (Best Practice) -->
<link rel="canonical" href="https://www.example.com/produkt/">

<!-- Canonical auf andere Seite verweisend -->
<!-- Auf der Seite /produkt/?sort=preis -->
<link rel="canonical" href="https://www.example.com/produkt/">

<!-- HTTP-Header Canonical (für Nicht-HTML-Dateien) -->
Link: <https://www.example.com/dokument.pdf>; rel="canonical"

Noindex vs. Robots.txt: Der entscheidende Unterschied

Ein häufiger Fehler ist die Verwechslung von noindex und robots.txt Disallow:

Aspekt	Meta Robots noindex	Robots.txt Disallow
Funktion	Verhindert die Indexierung	Verhindert das Crawling
Seite im Index?	Nein (wird entfernt)	Kann trotzdem indexiert sein
Google sieht Content?	Ja (muss crawlen, um noindex zu sehen)	Nein (Crawling blockiert)
Link Equity	Links auf der Seite werden berücksichtigt	Links werden nicht erkannt
Kombination	Blockieren Sie noindex-Seiten nicht via robots.txt, da Google das noindex-Tag sonst nicht sehen kann

Checkliste: Crawling & Indexierung optimieren

✓ XML-Sitemap erstellt und in Search Console eingereicht
✓ Robots.txt korrekt konfiguriert
✓ Selbst-referenzierende Canonical-Tags auf allen Seiten
✓ Keine wichtigen Seiten durch noindex oder robots.txt blockiert
✓ Interne Verlinkung stellt sicher, dass alle Seiten erreichbar sind
✓ Klicktiefe maximal 3-4 Ebenen für wichtige Seiten
✓ 404-Fehler und Redirect-Ketten regelmäßig bereinigt
✓ Server-Antwortzeiten unter 800ms für effizientes Crawling
✓ JavaScript-Content ist server-seitig gerendert oder pre-rendered
✓ Search Console Indexierungsberichte regelmäßig geprüft

Crawl-Budget-Optimierung für große Websites

Für Websites mit mehr als 10.000 Seiten kann die Crawl-Budget-Optimierung den Unterschied zwischen vollständiger Indexierung und fehlenden Seiten im Index ausmachen. Hier sind die wichtigsten Strategien.

Crawl Waste eliminieren

Crawl Waste entsteht, wenn der Googlebot Zeit und Ressourcen auf Seiten verschwendet, die keinen SEO-Wert haben:

Facetten-URLs in Online-Shops: Filter- und Sortier-Parameter erzeugen Tausende von URL-Varianten. Blockieren Sie irrelevante Facetten via robots.txt oder setzen Sie noindex mit Canonical auf die Hauptseite.
Paginierung: Endlose Paginierung (Seite 2, 3, 4...) verbraucht Crawl-Budget. Implementieren Sie eine sinnvolle Paginierungsstrategie mit Canonical-Tags oder betrachten Sie Infinite Scroll mit replaceState.
Parameter-URLs: Session-IDs, Tracking-Parameter und Sortieroptionen erzeugen Duplikate. Konfigurieren Sie die Parameter-Behandlung in der Google Search Console.
Verwaiste Seiten: Seiten ohne interne Links werden trotzdem gecrawlt, wenn sie in der Sitemap oder über externe Links erreichbar sind. Entfernen Sie solche Seiten oder verlinken Sie sie intern.

Interne Verlinkung für effizientes Crawling

Die interne Verlinkung ist das wichtigste Werkzeug zur Steuerung des Crawlings. Durch die strategische Platzierung von Links können Sie den Googlebot zu den wichtigsten Seiten lenken:

Platzieren Sie die wichtigsten Seiten maximal 3 Klicks von der Startseite entfernt
Verwenden Sie eine flache Seitenhierarchie mit klarer URL-Struktur
Verlinken Sie thematisch verwandte Seiten miteinander (Content Hubs)
Vermeiden Sie verwaiste Seiten ohne eingehende interne Links

Häufige Crawling- und Indexierungsfehler

Crawling- und Indexierungsprobleme gehören zu den häufigsten und gleichzeitig am schwierigsten zu diagnostizierenden SEO-Problemen. Hier sind die kritischsten Fehler und ihre Lösungen.

Fehler 1: Wichtige Seiten versehentlich blockiert

Problem: Durch falsche robots.txt-Regeln oder versehentliche noindex-Tags werden wichtige Seiten vom Crawling oder der Indexierung ausgeschlossen.

Lösung: Prüfen Sie regelmäßig die robots.txt und verwenden Sie den robots.txt-Tester in der Search Console. Crawlen Sie Ihre Website mit Screaming Frog, um noindex-Tags und blockierte Seiten zu identifizieren.

Fehler 2: Redirect-Ketten und -Schleifen

Problem: Mehrfache Weiterleitungen (A → B → C) verschwenden Crawl-Budget und können dazu führen, dass der Googlebot die Kette abbricht, bevor er die Zielseite erreicht.

Lösung: Jede Weiterleitung sollte direkt auf die finale Ziel-URL verweisen (A → C). Prüfen Sie regelmäßig auf Redirect-Ketten mit Screaming Frog oder Sitebulb.

Fehler 3: Thin Content führt zu Nicht-Indexierung

Problem: Seiten mit dünnem, minderwertigem oder dupliziertem Content werden von Google gecrawlt, aber bewusst nicht indexiert ("Crawled - currently not indexed").

Lösung: Verbessern Sie den Content qualitativ und quantitativ. Stellen Sie sicher, dass jede Seite einzigartigen Mehrwert bietet. Konsolidieren Sie Seiten mit ähnlichem Inhalt und achten Sie auf E-E-A-T-Signale.

Fehler 4: Orphan Pages (verwaiste Seiten)

Problem: Seiten, die über keine interne Links erreichbar sind, werden seltener gecrawlt und haben schlechte Chancen auf gute Rankings.

Lösung: Führen Sie ein Crawling-Audit mit Screaming Frog durch und vergleichen Sie die gecrawlten URLs mit denen in der Sitemap. Verwaiste Seiten müssen intern verlinkt oder entfernt werden.

Fehler 5: Falsche Canonical-Tags

Problem: Falsche oder inkonsistente Canonical-Tags können dazu führen, dass Google die falsche Seite als primäre Version wählt oder Signale nicht korrekt konsolidiert.

Lösung: Implementieren Sie auf jeder Seite einen selbst-referenzierenden Canonical-Tag. Stellen Sie sicher, dass Canonical-Tags konsistent sind mit hreflang-Tags, Sitemap-Einträgen und internen Links.

Fehler 6: Fehlende oder fehlerhafte XML-Sitemap

Problem: Ohne eine korrekte XML-Sitemap muss der Googlebot alle URLs über Links entdecken, was insbesondere bei großen Websites zu unvollständiger Indexierung führen kann.

Lösung: Erstellen Sie eine vollständige XML-Sitemap mit allen indexierungswürdigen URLs. Reichen Sie sie über die Search Console ein und verweisen Sie in der robots.txt darauf. Aktualisieren Sie die Sitemap automatisch bei Änderungen.

Das Monitoring von Crawling und Indexierung ist eine kontinuierliche Aufgabe. Nutzen Sie die Google Search Console als primäres Werkzeug und ergänzen Sie mit regelmäßigen Crawls durch Screaming Frog oder Sitebulb. Achten Sie dabei auch auf die korrekte Einbindung von Hreflang-Tags bei mehrsprachigen Websites, da diese das Crawling und die Indexierung aller Sprachversionen beeinflussen. Eine durchdachte Content-Strategie stellt sicher, dass nur hochwertige Seiten indexiert werden und das Crawl-Budget effizient genutzt wird.

Nützliche Tools

Google Search Console

Der Indexierungsbericht zeigt den Status jeder URL, die URL-Inspektion ermöglicht einzelne URL-Prüfungen, und die Sitemaps-Sektion zeigt den Sitemap-Status.

Screaming Frog SEO Spider

Crawlt Ihre Website wie der Googlebot und identifiziert Indexierungsprobleme, Redirect-Ketten, Orphan Pages und fehlende Meta-Robots-Tags.

Sitebulb

Visuelles Crawling-Tool mit Prioritäts-Hinweisen und Crawl-Maps. Besonders stark bei der Analyse der internen Verlinkung und Site-Architektur.

Ahrefs Site Audit

Cloud-basiertes Crawling mit automatischer Erkennung von Indexierungsproblemen, Redirect-Ketten und Content-Qualitätsproblemen.

Google URL-Inspektions-API

Programmatischer Zugang zur URL-Inspektion für die automatisierte Prüfung großer URL-Mengen auf Indexierungsprobleme.

Robots.txt Tester (Search Console)

Testet, ob bestimmte URLs durch die robots.txt blockiert werden. Unverzichtbar für die Validierung von robots.txt-Änderungen.

Häufige Fragen

Was ist der Unterschied zwischen Crawling und Indexierung?

Crawling ist der Prozess, bei dem der Googlebot Webseiten besucht und deren Inhalt herunterlädt. Indexierung ist der nachfolgende Prozess, bei dem Google den Inhalt analysiert und in den Suchindex aufnimmt. Eine Seite muss zuerst gecrawlt werden, bevor sie indexiert werden kann, aber nicht jede gecrawlte Seite wird auch indexiert.

Wie kann ich prüfen, ob meine Seite indexiert ist?

Verwenden Sie die URL-Inspektion in der Google Search Console für den zuverlässigsten Check. Alternativ können Sie site:ihredomain.de in der Google-Suche eingeben, um alle indexierten Seiten Ihrer Domain zu sehen. Für einzelne URLs verwenden Sie site:ihredomain.de/pfad/.

Was ist das Crawl-Budget und ist es wichtig?

Das Crawl-Budget beschreibt die Anzahl an Seiten, die Google in einem bestimmten Zeitraum crawlt. Für kleine Websites unter 10.000 Seiten ist es in der Regel kein Problem. Für große Websites mit Hunderttausenden von Seiten kann ein ineffizientes Crawl-Budget dazu führen, dass wichtige Seiten nicht rechtzeitig gecrawlt und indexiert werden.

Warum wird meine Seite gecrawlt aber nicht indexiert?

Die häufigsten Gründe sind: unzureichende Content-Qualität, Duplicate Content, fehlerhafte Canonical-Tags, noindex-Tag, oder die Seite bietet keinen einzigartigen Mehrwert. Prüfen Sie den Indexierungsbericht in der Search Console für den genauen Grund.

Wie oft crawlt Google meine Website?

Die Crawling-Frequenz hängt von der Größe, Autorität und Änderungshäufigkeit Ihrer Website ab. Beliebte, häufig aktualisierte Websites werden täglich oder sogar stündlich gecrawlt. Kleinere Websites mit seltenen Änderungen werden möglicherweise nur alle paar Wochen vollständig gecrawlt.

Kann ich Google zwingen, meine Seite zu indexieren?

Nein, Sie können die Indexierung nicht erzwingen. Sie können jedoch das Crawling und die Indexierung fördern, indem Sie URLs über die Search Console einreichen, eine korrekte XML-Sitemap bereitstellen, die interne Verlinkung optimieren und hochwertigen, einzigartigen Content erstellen.

Was passiert, wenn ich noindex setze?

Mit dem Meta-Robots-Tag noindex wird die Seite aus dem Google-Index entfernt, auch wenn sie gecrawlt wird. Google muss die Seite weiterhin crawlen können, um das noindex-Tag zu sehen. Blockieren Sie noindex-Seiten daher nicht gleichzeitig in der robots.txt.

Wie beeinflusst JavaScript das Crawling?

Google kann JavaScript rendern, aber der Prozess erfolgt in zwei Phasen und mit Verzögerung. Content, der erst durch JavaScript generiert wird, kann Tage oder Wochen länger brauchen, um indexiert zu werden. Verwenden Sie Server-Side Rendering für SEO-kritische Inhalte.

Was sind Soft 404-Fehler?

Soft 404-Fehler entstehen, wenn eine Seite den HTTP-Statuscode 200 zurückgibt, aber keinen sinnvollen Inhalt anzeigt, z.B. eine Suchseite ohne Ergebnisse oder eine leere Kategorieseite. Google erkennt dies und behandelt die Seite wie einen 404-Fehler, was das Crawl-Budget verschwendet.

Wie wirken sich 301-Weiterleitungen auf die Indexierung aus?

Bei einer 301-Weiterleitung wird die Ziel-URL indexiert und die Quell-URL aus dem Index entfernt. Google überträgt dabei die meisten Ranking-Signale auf die Ziel-URL. Vermeiden Sie Redirect-Ketten (mehrere aufeinanderfolgende Weiterleitungen) und leiten Sie immer direkt auf die finale URL weiter.

OnPage SEO

OffPage SEO

Technical SEO

Local SEO

Content SEO

AI & SEO

Crawling & Indexierung – Umfassender SEO-Ratgeber

Was sind Crawling und Indexierung?

Der Crawling-Prozess im Detail

Wie der Googlebot Seiten entdeckt

Crawl-Budget: Was es ist und warum es wichtig ist

JavaScript-Rendering und Crawling

Der Indexierungsprozess im Detail

Von der gecrawlten Seite zum Index-Eintrag

Indexierungsprobleme erkennen

Crawling und Indexierung steuern

Meta-Robots-Tag

Canonical-Tag

Noindex vs. Robots.txt: Der entscheidende Unterschied

Checkliste: Crawling & Indexierung optimieren

Crawl-Budget-Optimierung für große Websites

Crawl Waste eliminieren

Interne Verlinkung für effizientes Crawling

Häufige Crawling- und Indexierungsfehler

Fehler 1: Wichtige Seiten versehentlich blockiert

Fehler 2: Redirect-Ketten und -Schleifen

Fehler 3: Thin Content führt zu Nicht-Indexierung

Fehler 4: Orphan Pages (verwaiste Seiten)

Fehler 5: Falsche Canonical-Tags

Fehler 6: Fehlende oder fehlerhafte XML-Sitemap

Nützliche Tools

Google Search Console

Screaming Frog SEO Spider

Sitebulb

Ahrefs Site Audit

Google URL-Inspektions-API

Robots.txt Tester (Search Console)

Häufige Fragen

Crawling & Indexierung – Umfassender SEO-Ratgeber

Was sind Crawling und Indexierung?

Der Crawling-Prozess im Detail

Wie der Googlebot Seiten entdeckt

Crawl-Budget: Was es ist und warum es wichtig ist

JavaScript-Rendering und Crawling

Der Indexierungsprozess im Detail

Von der gecrawlten Seite zum Index-Eintrag

Indexierungsprobleme erkennen

Crawling und Indexierung steuern

Meta-Robots-Tag

Canonical-Tag

Noindex vs. Robots.txt: Der entscheidende Unterschied

Checkliste: Crawling & Indexierung optimieren

Crawl-Budget-Optimierung für große Websites

Crawl Waste eliminieren

Interne Verlinkung für effizientes Crawling

Häufige Crawling- und Indexierungsfehler

Fehler 1: Wichtige Seiten versehentlich blockiert

Fehler 2: Redirect-Ketten und -Schleifen

Fehler 3: Thin Content führt zu Nicht-Indexierung

Fehler 4: Orphan Pages (verwaiste Seiten)

Fehler 5: Falsche Canonical-Tags

Fehler 6: Fehlende oder fehlerhafte XML-Sitemap

Nützliche Tools

Google Search Console

Screaming Frog SEO Spider

Sitebulb

Ahrefs Site Audit

Google URL-Inspektions-API

Robots.txt Tester (Search Console)

Häufige Fragen

Verwandte Begriffe

Robots.txt

XML-Sitemap

Google Search Console

Interne Verlinkung

Duplicate Content

URL-Struktur