Wie Google Seiten crawlt, die an das Gebietsschema angepasst sind
Wenn deine Website an das Gebietsschema angepasste Seiten enthält, die basierend auf dem erkannten Land oder der bevorzugten Sprache des Besuchers unterschiedliche Inhalte zurückgeben, crawlt oder indexiert Google möglicherweise nicht alle deine Inhalte für verschiedene Gebiete oder weist nicht allen einen Rang zu. Das ist darauf zurückzuführen, dass die Standard-IP-Adressen des Googlebot-Crawlers offenbar aus den USA stammen. Außerdem sendet der Crawler HTTP-Anfragen ohne die Einstellung Accept-Language
im Anfrageheader.
Standortbasiertes Crawling
Der Googlebot crawlt neben IP-Adressen, die aus den USA stammen, auch ausländische IP-Adressen.
Wir empfehlen immer, den Googlebot wie jeden anderen Nutzer aus diesem Land zu behandeln, wenn er offenbar aus einem bestimmten Land stammt. Wenn du also den Zugriff auf deine Inhalte für Nutzer aus den USA blockierst, jedoch zulässt, dass Nutzer aus Australien diese Inhalte aufrufen können, sollten deine Server einen Googlebot blockieren, der offenbar aus den USA stammt, jedoch den Zugriff für einen Googlebot zulassen, der offenbar aus Australien kommt.
Weitere Aspekte
- Der Googlebot verwendet denselben User-Agent-String für alle Crawling-Konfigurationen. Weitere Informationen zu den von Google-Crawlern verwendeten User-Agent-Strings
- Du kannst standortbasierte Crawling-Vorgänge des Googlebots mithilfe von umgekehrten DNS-Lookups prüfen.
- Achte darauf, dass das Protokoll zum Ausschluss von Robots auf deiner Website einheitlich auf alle Gebietsschemen angewendet wird. Das bedeutet, dass für Robots-
meta
-Tags und die robots.txt-Datei in jedem Gebietsschema dieselben Regeln angegeben werden müssen.