Was sind Crawling und Indexierung?
Crawling und Indexierung sind die zwei grundlegenden Prozesse, durch die Suchmaschinen wie Google Webseiten entdecken, analysieren und in ihren Suchindex aufnehmen. Ohne erfolgreichen Durchlauf beider Prozesse kann eine Webseite in den Suchergebnissen nicht erscheinen, unabhängig davon, wie gut ihr Content oder ihre Backlinks sind.
Crawling bezeichnet den Vorgang, bei dem ein Suchmaschinen-Bot (bei Google der Googlebot) systematisch das Internet durchsucht, indem er Links von einer Seite zur nächsten folgt. Der Googlebot ladet dabei den HTML-Code, CSS, JavaScript und andere Ressourcen jeder Seite herunter, um deren Inhalt zu erfassen. Man kann sich den Googlebot als einen automatisierten Leser vorstellen, der das gesamte Internet über Hyperlinks durchsurft.
Indexierung ist der nachgelagerte Prozess, bei dem Google die gecrawlten Seiten analysiert, ihren Inhalt versteht, sie kategorisiert und in den Suchindex aufnimmt. Der Google-Index ist eine riesige Datenbank, die Hunderte von Milliarden von Webseiten umfasst. Nur Seiten, die im Index enthalten sind, können in den Suchergebnissen erscheinen. Die Indexierung umfasst die Textanalyse, das Erkennen von Duplikaten, die Bewertung der Canonical-URL, das Parsen von strukturierten Daten und die Einordnung in thematische Cluster.
Für SEO-Experten ist das Verständnis von Crawling und Indexierung essenziell, da viele technische Probleme, die Rankings verhindern, in diesen beiden Prozessen wurzeln. Eine Seite, die nicht gecrawlt wird, kann nicht indexiert werden. Eine Seite, die gecrawlt, aber nicht indexiert wird, erscheint nicht in den Suchergebnissen. Die Steuerung beider Prozesse gehört zu den Kernaufgaben des Technical SEO.
Der Crawling-Prozess im Detail
Der Googlebot arbeitet mit einer sogenannten Crawl-Queue (Warteschlange), in der URLs nach Priorität geordnet sind. Diese Priorität wird durch verschiedene Faktoren bestimmt, darunter die Autorität der Domain, die Änderungshäufigkeit der Seite und die Anzahl eingehender Links.
Wie der Googlebot Seiten entdeckt
Der Googlebot entdeckt neue URLs auf verschiedenen Wegen:
- Interne Links: Der Googlebot folgt Links auf bereits bekannten Seiten. Eine solide interne Verlinkung ist daher fundamental für das Crawling.
- XML-Sitemaps: Die XML-Sitemap liefert dem Googlebot eine Liste aller relevanten URLs direkt.
- Externe Links: Backlinks von anderen Websites führen den Googlebot zu Ihren Seiten.
- Google Search Console: Die URL-Inspektions-Funktion ermöglicht das manuelle Einreichen einzelner URLs.
- Sitemaps in der robots.txt: Die robots.txt kann auf die Sitemap verweisen und dem Googlebot deren Standort mitteilen.
Crawl-Budget: Was es ist und warum es wichtig ist
Das Crawl-Budget ist die Anzahl an Seiten, die der Googlebot innerhalb eines bestimmten Zeitraums auf Ihrer Website crawlt. Es setzt sich aus zwei Faktoren zusammen:
- Crawl Rate Limit: Die maximale Crawling-Geschwindigkeit, die Google verwendet, ohne den Server zu überlasten. Schnelle Server mit guter Seitengeschwindigkeit erhalten ein höheres Limit.
- Crawl Demand: Wie häufig Google Ihre Seiten crawlen möchte, basierend auf deren Beliebtheit und Änderungshäufigkeit. Häufig aktualisierte, beliebte Seiten werden öfter gecrawlt.
Für kleine bis mittelgroße Websites (unter 10.000 Seiten) ist das Crawl-Budget in der Regel kein limitierender Faktor. Für große Websites mit Hunderttausenden oder Millionen von Seiten (E-Commerce-Shops, Nachrichtenportale, Jobbörsen) ist die effiziente Nutzung des Crawl-Budgets hingegen kritisch für die SEO-Performance.
Wichtig: Google hat klargestellt, dass das Crawl-Budget für die meisten Websites kein Problem darstellt. Wenn Ihre Website weniger als einige Tausend Seiten hat und gut verlinkt ist, werden alle Seiten in der Regel problemlos gecrawlt. Fokussieren Sie sich auf das Crawl-Budget nur, wenn Sie eine sehr große Website betreiben oder wenn die Google Search Console Crawling-Probleme anzeigt.
JavaScript-Rendering und Crawling
Ein zunehmend wichtiges Thema ist das Crawling von JavaScript-basierten Websites. Google kann JavaScript rendern, aber der Prozess erfolgt in zwei Phasen:
- Erste Welle (HTML-Crawling): Der Googlebot lädt das HTML-Dokument und verarbeitet Links und Meta-Tags, die direkt im HTML stehen.
- Zweite Welle (Rendering): Zu einem späteren Zeitpunkt rendert Google die Seite mit JavaScript, um dynamisch generierte Inhalte zu erfassen. Diese Verzögerung kann Tage bis Wochen betragen.
Für SEO-kritische Inhalte ist es daher ratsam, Server-Side Rendering (SSR) oder Static Site Generation (SSG) zu verwenden, damit der Content sofort im HTML verfügbar ist und nicht auf das JavaScript-Rendering warten muss.
Der Indexierungsprozess im Detail
Nachdem der Googlebot eine Seite gecrawlt hat, beginnt der Indexierungsprozess. Dieser ist deutlich komplexer als das blosse Speichern des Seiteninhalts und umfasst mehrere Schritte.
Von der gecrawlten Seite zum Index-Eintrag
- Textanalyse: Google extrahiert den Text, identifiziert die Sprache, erkennt Entitäten und analysiert die thematische Relevanz.
- Duplikat-Erkennung: Google vergleicht den Inhalt mit bereits indexierten Seiten, um Duplicate Content zu identifizieren.
- Canonical-Bestimmung: Bei mehreren Versionen derselben Seite wählt Google die kanonische URL als primäre Version für den Index.
- Strukturierte Daten: Schema.org-Markup wird geparst und für Rich Results verwendet.
- Signal-Erfassung: Google erfasst Ranking-Signale wie Title-Tags, Überschriften, Meta-Descriptions und Linkstrukturen.
Indexierungsprobleme erkennen
Nicht jede gecrawlte Seite wird auch indexiert. Google entscheidet anhand verschiedener Kriterien, ob eine Seite in den Index aufgenommen wird. Die häufigsten Gründe für Nicht-Indexierung sind:
| Problem | Ursache | Lösung |
|---|---|---|
| Crawled - currently not indexed | Seite gecrawlt, aber als qualitativ unzureichend eingestuft | Content-Qualität verbessern, einzigartige Inhalte erstellen |
| Discovered - currently not indexed | URL bekannt, aber noch nicht gecrawlt | Interne Verlinkung stärken, URL in Search Console einreichen |
| Excluded by noindex | Meta-Robots-Tag mit noindex | noindex entfernen, wenn die Seite indexiert werden soll |
| Blocked by robots.txt | Crawling durch robots.txt blockiert | Robots.txt anpassen |
| Duplicate, submitted URL not selected as canonical | Google wählt eine andere URL als Canonical | Canonical-Tag korrekt setzen, Duplikate konsolidieren |
| Soft 404 | Seite liefert 200-Status, aber keinen sinnvollen Inhalt | Entweder Content hinzufügen oder 404/410 zurückgeben |
Crawling und Indexierung steuern
SEO-Experten haben verschiedene Werkzeuge zur Verfügung, um das Crawling und die Indexierung gezielt zu steuern. Die korrekte Anwendung dieser Werkzeuge ist entscheidend für eine effiziente SEO-Strategie.
Meta-Robots-Tag
Der Meta-Robots-Tag im HTML-Head gibt Suchmaschinen Anweisungen zur Indexierung und Link-Verfolgung:
<!-- Standardwert (muss nicht explizit gesetzt werden) -->
<meta name="robots" content="index, follow">
<!-- Seite nicht indexieren, aber Links folgen -->
<meta name="robots" content="noindex, follow">
<!-- Seite indexieren, aber Links nicht folgen -->
<meta name="robots" content="index, nofollow">
<!-- Seite weder indexieren noch Links folgen -->
<meta name="robots" content="noindex, nofollow">
<!-- Zusätzliche Anweisungen -->
<meta name="robots" content="noarchive"> <!-- Kein Cache-Link in SERPs -->
<meta name="robots" content="nosnippet"> <!-- Kein Snippet anzeigen -->
<meta name="robots" content="max-snippet:160"> <!-- Snippet-Länge begrenzen -->
<meta name="robots" content="max-image-preview:large"> <!-- Bildvorschau-Größe -->
<!-- X-Robots-Tag als HTTP-Header (für PDFs, Bilder etc.) -->
<!-- Apache .htaccess -->
<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex"
</FilesMatch>
Canonical-Tag
Der Canonical-Tag hilft Google, bei mehreren Versionen einer Seite die bevorzugte URL zu identifizieren. Dies ist besonders relevant bei Parametrisierung, Sortierung und Filterung:
<!-- Selbst-referenzierender Canonical (Best Practice) -->
<link rel="canonical" href="https://www.example.com/produkt/">
<!-- Canonical auf andere Seite verweisend -->
<!-- Auf der Seite /produkt/?sort=preis -->
<link rel="canonical" href="https://www.example.com/produkt/">
<!-- HTTP-Header Canonical (für Nicht-HTML-Dateien) -->
Link: <https://www.example.com/dokument.pdf>; rel="canonical"
Noindex vs. Robots.txt: Der entscheidende Unterschied
Ein häufiger Fehler ist die Verwechslung von noindex und robots.txt Disallow:
| Aspekt | Meta Robots noindex | Robots.txt Disallow |
|---|---|---|
| Funktion | Verhindert die Indexierung | Verhindert das Crawling |
| Seite im Index? | Nein (wird entfernt) | Kann trotzdem indexiert sein |
| Google sieht Content? | Ja (muss crawlen, um noindex zu sehen) | Nein (Crawling blockiert) |
| Link Equity | Links auf der Seite werden berücksichtigt | Links werden nicht erkannt |
| Kombination | Blockieren Sie noindex-Seiten nicht via robots.txt, da Google das noindex-Tag sonst nicht sehen kann | |
Checkliste: Crawling & Indexierung optimieren
- ✓ XML-Sitemap erstellt und in Search Console eingereicht
- ✓ Robots.txt korrekt konfiguriert
- ✓ Selbst-referenzierende Canonical-Tags auf allen Seiten
- ✓ Keine wichtigen Seiten durch noindex oder robots.txt blockiert
- ✓ Interne Verlinkung stellt sicher, dass alle Seiten erreichbar sind
- ✓ Klicktiefe maximal 3-4 Ebenen für wichtige Seiten
- ✓ 404-Fehler und Redirect-Ketten regelmäßig bereinigt
- ✓ Server-Antwortzeiten unter 800ms für effizientes Crawling
- ✓ JavaScript-Content ist server-seitig gerendert oder pre-rendered
- ✓ Search Console Indexierungsberichte regelmäßig geprüft
Crawl-Budget-Optimierung für große Websites
Für Websites mit mehr als 10.000 Seiten kann die Crawl-Budget-Optimierung den Unterschied zwischen vollständiger Indexierung und fehlenden Seiten im Index ausmachen. Hier sind die wichtigsten Strategien.
Crawl Waste eliminieren
Crawl Waste entsteht, wenn der Googlebot Zeit und Ressourcen auf Seiten verschwendet, die keinen SEO-Wert haben:
- Facetten-URLs in Online-Shops: Filter- und Sortier-Parameter erzeugen Tausende von URL-Varianten. Blockieren Sie irrelevante Facetten via robots.txt oder setzen Sie noindex mit Canonical auf die Hauptseite.
- Paginierung: Endlose Paginierung (Seite 2, 3, 4...) verbraucht Crawl-Budget. Implementieren Sie eine sinnvolle Paginierungsstrategie mit Canonical-Tags oder betrachten Sie Infinite Scroll mit
replaceState. - Parameter-URLs: Session-IDs, Tracking-Parameter und Sortieroptionen erzeugen Duplikate. Konfigurieren Sie die Parameter-Behandlung in der Google Search Console.
- Verwaiste Seiten: Seiten ohne interne Links werden trotzdem gecrawlt, wenn sie in der Sitemap oder über externe Links erreichbar sind. Entfernen Sie solche Seiten oder verlinken Sie sie intern.
Interne Verlinkung für effizientes Crawling
Die interne Verlinkung ist das wichtigste Werkzeug zur Steuerung des Crawlings. Durch die strategische Platzierung von Links können Sie den Googlebot zu den wichtigsten Seiten lenken:
- Platzieren Sie die wichtigsten Seiten maximal 3 Klicks von der Startseite entfernt
- Verwenden Sie eine flache Seitenhierarchie mit klarer URL-Struktur
- Verlinken Sie thematisch verwandte Seiten miteinander (Content Hubs)
- Vermeiden Sie verwaiste Seiten ohne eingehende interne Links
Häufige Crawling- und Indexierungsfehler
Crawling- und Indexierungsprobleme gehören zu den häufigsten und gleichzeitig am schwierigsten zu diagnostizierenden SEO-Problemen. Hier sind die kritischsten Fehler und ihre Lösungen.
Fehler 1: Wichtige Seiten versehentlich blockiert
Problem: Durch falsche robots.txt-Regeln oder versehentliche noindex-Tags werden wichtige Seiten vom Crawling oder der Indexierung ausgeschlossen.
Lösung: Prüfen Sie regelmäßig die robots.txt und verwenden Sie den robots.txt-Tester in der Search Console. Crawlen Sie Ihre Website mit Screaming Frog, um noindex-Tags und blockierte Seiten zu identifizieren.
Fehler 2: Redirect-Ketten und -Schleifen
Problem: Mehrfache Weiterleitungen (A → B → C) verschwenden Crawl-Budget und können dazu führen, dass der Googlebot die Kette abbricht, bevor er die Zielseite erreicht.
Lösung: Jede Weiterleitung sollte direkt auf die finale Ziel-URL verweisen (A → C). Prüfen Sie regelmäßig auf Redirect-Ketten mit Screaming Frog oder Sitebulb.
Fehler 3: Thin Content führt zu Nicht-Indexierung
Problem: Seiten mit dünnem, minderwertigem oder dupliziertem Content werden von Google gecrawlt, aber bewusst nicht indexiert ("Crawled - currently not indexed").
Lösung: Verbessern Sie den Content qualitativ und quantitativ. Stellen Sie sicher, dass jede Seite einzigartigen Mehrwert bietet. Konsolidieren Sie Seiten mit ähnlichem Inhalt und achten Sie auf E-E-A-T-Signale.
Fehler 4: Orphan Pages (verwaiste Seiten)
Problem: Seiten, die über keine interne Links erreichbar sind, werden seltener gecrawlt und haben schlechte Chancen auf gute Rankings.
Lösung: Führen Sie ein Crawling-Audit mit Screaming Frog durch und vergleichen Sie die gecrawlten URLs mit denen in der Sitemap. Verwaiste Seiten müssen intern verlinkt oder entfernt werden.
Fehler 5: Falsche Canonical-Tags
Problem: Falsche oder inkonsistente Canonical-Tags können dazu führen, dass Google die falsche Seite als primäre Version wählt oder Signale nicht korrekt konsolidiert.
Lösung: Implementieren Sie auf jeder Seite einen selbst-referenzierenden Canonical-Tag. Stellen Sie sicher, dass Canonical-Tags konsistent sind mit hreflang-Tags, Sitemap-Einträgen und internen Links.
Fehler 6: Fehlende oder fehlerhafte XML-Sitemap
Problem: Ohne eine korrekte XML-Sitemap muss der Googlebot alle URLs über Links entdecken, was insbesondere bei großen Websites zu unvollständiger Indexierung führen kann.
Lösung: Erstellen Sie eine vollständige XML-Sitemap mit allen indexierungswürdigen URLs. Reichen Sie sie über die Search Console ein und verweisen Sie in der robots.txt darauf. Aktualisieren Sie die Sitemap automatisch bei Änderungen.
Das Monitoring von Crawling und Indexierung ist eine kontinuierliche Aufgabe. Nutzen Sie die Google Search Console als primäres Werkzeug und ergänzen Sie mit regelmäßigen Crawls durch Screaming Frog oder Sitebulb. Achten Sie dabei auch auf die korrekte Einbindung von Hreflang-Tags bei mehrsprachigen Websites, da diese das Crawling und die Indexierung aller Sprachversionen beeinflussen. Eine durchdachte Content-Strategie stellt sicher, dass nur hochwertige Seiten indexiert werden und das Crawl-Budget effizient genutzt wird.
Nützliche Tools
Google Search Console
Der Indexierungsbericht zeigt den Status jeder URL, die URL-Inspektion ermöglicht einzelne URL-Prüfungen, und die Sitemaps-Sektion zeigt den Sitemap-Status.
Screaming Frog SEO Spider
Crawlt Ihre Website wie der Googlebot und identifiziert Indexierungsprobleme, Redirect-Ketten, Orphan Pages und fehlende Meta-Robots-Tags.
Sitebulb
Visuelles Crawling-Tool mit Prioritäts-Hinweisen und Crawl-Maps. Besonders stark bei der Analyse der internen Verlinkung und Site-Architektur.
Ahrefs Site Audit
Cloud-basiertes Crawling mit automatischer Erkennung von Indexierungsproblemen, Redirect-Ketten und Content-Qualitätsproblemen.
Google URL-Inspektions-API
Programmatischer Zugang zur URL-Inspektion für die automatisierte Prüfung großer URL-Mengen auf Indexierungsprobleme.
Robots.txt Tester (Search Console)
Testet, ob bestimmte URLs durch die robots.txt blockiert werden. Unverzichtbar für die Validierung von robots.txt-Änderungen.
Häufige Fragen
Crawling ist der Prozess, bei dem der Googlebot Webseiten besucht und deren Inhalt herunterlädt. Indexierung ist der nachfolgende Prozess, bei dem Google den Inhalt analysiert und in den Suchindex aufnimmt. Eine Seite muss zuerst gecrawlt werden, bevor sie indexiert werden kann, aber nicht jede gecrawlte Seite wird auch indexiert.
Verwenden Sie die URL-Inspektion in der Google Search Console für den zuverlässigsten Check. Alternativ können Sie site:ihredomain.de in der Google-Suche eingeben, um alle indexierten Seiten Ihrer Domain zu sehen. Für einzelne URLs verwenden Sie site:ihredomain.de/pfad/.
Das Crawl-Budget beschreibt die Anzahl an Seiten, die Google in einem bestimmten Zeitraum crawlt. Für kleine Websites unter 10.000 Seiten ist es in der Regel kein Problem. Für große Websites mit Hunderttausenden von Seiten kann ein ineffizientes Crawl-Budget dazu führen, dass wichtige Seiten nicht rechtzeitig gecrawlt und indexiert werden.
Die häufigsten Gründe sind: unzureichende Content-Qualität, Duplicate Content, fehlerhafte Canonical-Tags, noindex-Tag, oder die Seite bietet keinen einzigartigen Mehrwert. Prüfen Sie den Indexierungsbericht in der Search Console für den genauen Grund.
Die Crawling-Frequenz hängt von der Größe, Autorität und Änderungshäufigkeit Ihrer Website ab. Beliebte, häufig aktualisierte Websites werden täglich oder sogar stündlich gecrawlt. Kleinere Websites mit seltenen Änderungen werden möglicherweise nur alle paar Wochen vollständig gecrawlt.
Nein, Sie können die Indexierung nicht erzwingen. Sie können jedoch das Crawling und die Indexierung fördern, indem Sie URLs über die Search Console einreichen, eine korrekte XML-Sitemap bereitstellen, die interne Verlinkung optimieren und hochwertigen, einzigartigen Content erstellen.
Mit dem Meta-Robots-Tag noindex wird die Seite aus dem Google-Index entfernt, auch wenn sie gecrawlt wird. Google muss die Seite weiterhin crawlen können, um das noindex-Tag zu sehen. Blockieren Sie noindex-Seiten daher nicht gleichzeitig in der robots.txt.
Google kann JavaScript rendern, aber der Prozess erfolgt in zwei Phasen und mit Verzögerung. Content, der erst durch JavaScript generiert wird, kann Tage oder Wochen länger brauchen, um indexiert zu werden. Verwenden Sie Server-Side Rendering für SEO-kritische Inhalte.
Soft 404-Fehler entstehen, wenn eine Seite den HTTP-Statuscode 200 zurückgibt, aber keinen sinnvollen Inhalt anzeigt, z.B. eine Suchseite ohne Ergebnisse oder eine leere Kategorieseite. Google erkennt dies und behandelt die Seite wie einen 404-Fehler, was das Crawl-Budget verschwendet.
Bei einer 301-Weiterleitung wird die Ziel-URL indexiert und die Quell-URL aus dem Index entfernt. Google überträgt dabei die meisten Ranking-Signale auf die Ziel-URL. Vermeiden Sie Redirect-Ketten (mehrere aufeinanderfolgende Weiterleitungen) und leiten Sie immer direkt auf die finale URL weiter.