Googlebot

Inhalt

Definition

In diesem Glossar erfahren Sie, wie der Googlebot das Internet durchsucht, um den Nutzern der Suchmaschine neue Webseiten zur Verfügung zu stellen und die neuesten Auflagen geänderter Seiten in den Index aufzunehmen. Die Betreiber der meisten Webseiten möchten, dass der Googlebot möglichst schnell vorbeikommt, manche Seiten sollen ihn nicht interessieren. In beiden Fällen lässt der Googlebot mit sich reden; nachfolgend erfahren Sie, welche Möglichkeiten der Kontaktaufnahme zur Verfügung stehen.

Der Googlebot ist der Webcrawler von Google. Er hat die Aufgabe, das Internet nach Webseiten zu durchsuchen, deren Aufnahme in den Google Index geprüft werden muss. Damit ist der Googlebot zunächst für Websites interessant, die gerade neu ins Netz gestellt wurden – sie sind unter ihrer URL zwar sofort erreichbar, können über die Suchmaschine aber erst gefunden werden, wenn sie in den Google Index aufgenommen wurden. Wenn diese Websites viele Menschen erreichen sollen, ist der Besuch des Googlebots essentiell für sie.

Für Webseiten, auf denen Veränderungen/Verbesserungen vorgenommen wurden, ist der Besuch des Googlebots vielleicht noch wichtiger: Solange der Googlebot diese Veränderungen nicht sichtet und die neue Version in den Index aufnimmt, wird bei einer Suche nach dieser Seite die alte Fassung angezeigt. Da gerade die Seiten, die um die Gunst vieler potentieller Käufer oder Interessenten werben, eher über die Suchmaschine als über Direkteingabe der URL aufgerufen werden, kann es teuer werden, wenn die Änderungen nicht zügig aufgenommen werden.

Google selbst spricht nicht nur von Crawling, sondern davon, dass ins Internet gestellte Websites gecrawlt und geparst (analysiert) werden, um sie in den Google-Suchergebnissen und ggf. auch in anderen Google-Produkten wie buchbaren Anzeigenplätzen etc. anzuzeigen. Diese doppelte Begrifflichkeit lässt die Komplexität der Aufgaben bereits erahnen, die von mächtig leistungsfähigen Programmen bewältigt wird.

Ihr

Ansprechpartner

Khalil Agheli Zadeh
Geschäftsführer

+49 511 54 300 194

Bots, Crawler und Parser

Ein Bot ist ein Computerprogramm, das selbständig bestimmte Aufgaben bearbeiten kann, ohne dass Menschen nach Start des Programmes noch irgendwelche weiteren Befehle eingeben müssen. Seinen Namen hat der Bot vom englischen „robot“ = „Roboter“, und genauso arbeitet er auch: Einmal in Gang gesetzt, erledigt er automatisch immer die gleichen, sich wiederholenden Arbeitsschritte.

Ein Crawler, genauer „Webcrawler“, ist eine Unterart eines Bots, der auch Spider, Robot oder Searchbot genannt wird, weil er spezifische, in Suchmaschinen anfallende Aufgaben wahrnimmt: Sein Programm weist ihn an, automatisch und ständig das World Wide Web zu durchsuchen und alle Webseiten zu analysieren, die ihm Zugang gewähren.

Dabei können die Webcrawler E-Mail-Adressen oder Web-Feeds oder andere Arten von Informationen sammeln, und in Suchmaschinen nehmen sie eine der Kernaufgaben wahr: Sie werden eingesetzt, um die im Netz verbreiteten Webseiten in den Index der Suchmaschine aufzunehmen – was die Voraussetzung dafür ist, dass eine Webseite nach einer Suche mit passenden Begriffen in der Suchergebnissen ausgegeben wird.

Weil Google Webseiten aber nicht in einer beliebigen Reihenfolge ausgibt, sondern vor jeder Ausgabe eine Sortierung vornimmt, um dem Nutzer die jeweils besten Ergebnisse auf seine Suchanfrage zu liefern, muss jede Webseite schon bei der Indizierung umfassend analysiert werden. Google erfasst den EAT [Link Artikel „EAT Guidelines“] und die Entität des Contents [Link Artikel „Entitäten“], prüft die Website auf Dublicate Content [Link Artikel „Dublicate Content“] und Sicherheit und viele, viele Dinge mehr.

Deshalb spricht Google auch von „crawlen und parsen“, weil hier ein weiteres Computerprogramm aus der Reihe der Parser ins Spiel kommt: Der Parser ist nach dem englischen Verb „to parse“ benannt, was sich mit „analysieren“ oder auch „zerteilen“ übersetzen lässt. Er nimmt sich alles vor, was ihm eingegeben wird, um es zu zerlegen und in das Format umzuwandeln, das für die Weiterverarbeitung am besten geeignet ist.

Wenn der Parser für eine Suchmaschine arbeitet, werden ihm fremde Webseiten vorgelegt, die er analysieren, aber nur in dem Rahmen zerteilen oder umwandeln kann, dem der jeweilige Betreiber durch Akzeptanz der Google-Nutzungsbedingungen zugestimmt hat. Die Webseite bleibt also im Wesentlichen so, wie sie eingestellt wurde, der Parser beschränkt sich bei seinem Analysevorgang darauf, die Seite möglichst gut zu verstehen und zu erfassen, ihr etliche Strukturbeschreibungen zuzufügen und diese zu speichern, um der Seite später auf Suchanfragen schnell einen angemessenen Platz in den Suchergebmissen zuweisen zu können.

Bekannte Fakten über die Arbeitsweise des Googlebots

Wie hinter jedem Webcrawler steckt auch hinter dem Googlebot ein Algorithmus, der auf selbständiges Arbeiten programmiert ist. Dieser Algorithmus nutzt die „innerste Grundstruktur“ des World Wide Web, das deshalb „Netz“ heißt, weil es ein riesiges Geflecht von Webseiten bildet, die über Links miteinander verbunden sind.

Der Crawler erfasst Websites vor allem, indem er die Verweise nutzt, um von einer URL zur nächsten zu springen. Dahinter steckt mathematisch ein Graphen-Konzept, das z. B. auch hinter Bahn-Netzen oder Stammbäumen steht und dem Crawler hilft, das Netz maximal schnell und effektiv zu durchsuchen. Genauere Informationen zur Programmierung des Googlebot s sind jedoch ebenso wenig verfügbar wie zu den Einzelheiten der Suchalgorithmus-Programme.

Was Google herausgibt, sind Informationen zur Anzahl der Crawler und dem jeweiligen Suchbereich. Denn auch wenn „der Googlebot“ bisher immer nur in der Einzahl angesprochen wurde, benutzt Google in Wirklichkeit mehrere Googlebots und dazu noch mehrere andere Crawler, um die Milliarden im Netz befindlichen Seiten zu sichten, und erfasst Websites auf viele verschiedene Arten:
– der Googlebot Crawler für Computer ist im gesamten Netz unterwegs und der bestbeschäftigte Crawler
– der Googlebot für Smartphones crawlt Seiten für die Mobil-Welt
– der Googlebot-Image crawlt Bilder
– der Googlebot-News crawlt News
– der Googlebot-Video crawlt Videos
– der Crawler APIs-Google übermittelt Push-Benachrichtigungen von Google-APIs, wenn Anwendungsentwickler sich für den Empfang der Nachrichten registriert haben
– der AdSense-Crawler ermittelt Anzeigen-relevanten Content
– der AdsBot Mobile Web Android Crawler prüft die Qualität der Anzeigen auf für Android-Geräte optimierten Seiten
– der AdsBot Mobile Web Crawler prüft die Qualität der Anzeigen auf für iPhones optimierten Websites
– der AdsBot Crawler prüft die Qualität der Anzeigen auf für Computer optimierten Webseiten
– der Mobile AdSense Crawler ermittelt Anzeigen-relevanten Content für Mobil-Geräte
– der Mobile Apps Android Crawler prüft die Qualität der Anzeigen auf für Android-Apps optimierten Websites
– der Feedfetcher crawlt von Nutzern initiierte Feeds
– der Google Read Aloud Crawler erfasst Webseiten mit aktivierter Sprachausgabe
– der Duplex im Web Crawler unterstützt den Dienst „Google Duplex im Web“
– der Google Favicon Crawler crawlt Favicons für diverse Dienste
– der Web Light Crawler sucht nach schnellen Seiten für Mobil-Nutzer, die auf langsamen Mobil-Geräten suchen

Jeder dieser Crawler kann durch seinen Namen im HTTP-Header als Googlebot User Agent eindeutig identifiziert werden. All diese Googlebot User Agenten arbeiten mit verschiedensten Techniken, wobei sich fokussierte Crawler auf ihr Thema konzentrieren, andererseits aber auch mehrere Crawling-Prozesse in Multi-Threading gleichzeitig bearbeitet werden.

Die Bedeutung des Google-Crawlings für Webseitenbetreiber

Google Crawling ist für jeden Webseitenbetreiber von entscheidender Bedeutung, dessen Webseite viele Menschen erreichen soll. Das Crawling entscheidet bereits darüber, ob eine neue Website überhaupt in der Suchmaschine gesucht und gefunden werden kann. Denn dazu muss Google zunächst Kenntnis von der Existenz der Seiten-URL erlangen, weil die Seite sonst von Google Systemen nicht gecrawlt und indexiert werden kann, um in den Suchergebnissen aufgeführt zu werden.

Wenn eine neue Webseite ohne weitere Maßnahmen in Netz gestellt wird, kann Google auf mehrere Arten von der Existenz dieser Seite erfahren: Viele Seiten werden über Webhosts/Provider verwaltetet, die Google informieren, wenn neue (oder aktualisierte) Seiten gecrawlt werden sollen. Die Google-Crawler können außerdem auf die Webseite aufmerksam werden, indem sie andere Seiten crawlen, deren Inhalte mit dieser Webseite verknüpft sind.

Die neue Webseite wird also von den Googlebots also irgendwann gefunden werden, die Indexierung kann bei dieser Vorgehensweise allerdings eine Weile dauern. Hier erklärt Google, wie geprüft werden kann, was Google auf dieser Website sehen kann und ob die Website für die entscheidenden Crawler zugänglich, sicher und schnell genug ist: developers.google.com/search/docs/guides/get-started.

Wenn eine Website schnell gefunden werden soll, kann die Erfassung durch den Googlebot auf verschiedene Arten beschleunigt werden:

1. Zunächst sollte den Googlebots eine Sitemap zur Verfügung gestellt werden. Diese Liste mit den URLs der neu eingestellten Inhalte stellt dem Googlebot die benötigten Informationen über die Struktur der Website in kompakter Form und an einem gut erreichbaren Ort zur Verfügung. Sie kann vor allem bei umfangreichen Webseiten zu einer sehr viel schnelleren Indizierung führen.

2. Wenn die neue Website (noch) arm an Backlinks ist, gibt es schnellere Möglichkeiten als den langsamen und geordneten Linkaufbau, um Google auch woanders im Netz über Verweise zur neuen Seite stolpern zu lassen: Die Seite kann in öffentliche Branchenverzeichnisse und andere seriöse Link-Bibliotheken eingetragen werden, zu einschlägigen Blogs können Pingbacks gesendet werden, die auf die gewünschte Start-URL für den Googlebot verweisen.

3. Wenn mehrere URLs mit fast gleichem Inhalt wie HTML-Seite, AMP-Seite (Accelerated Mobile Page) + Ansicht für mobile Apps eingestellt wurden, sollte Google über die Beziehung zwischen den Seiten aufgeklärt werden. Die Hauptseite wird dazu im Header mit einem Canonical-Tag gekennzeichnet, die anderen Seiten werden entsprechend verknüpft oder weitergeleitet. Die Aufnahme der Hauptseite wird beschleunigt, auch wenn sie noch kaum Backlinks aufweist; die Klärung sorgt außerdem dafür, dass sich die ähnlichen Seiten nicht selbst Konkurrenz machen (bzw. eine Abstrafung wegen doppeltem Inhalt erhalten, wenn sie sich sehr ähnlich sind).

4. Es gibt auch die Möglichkeit, den Googlebot direkt zu benachrichtigen. Wenn die Sitemap an Google gesendet wird, erkennt der Googlebot neue URLs sehr viel schneller.

Beeinflussung der Googlebots für die Suchmaschinenoptimierung

Die Googlebots lassen sich jederzeit ansprechen, um zu SEO-Zwecken nach Belieben von einer Website ausgesperrt oder zur schnellen Aktualisiert bzw. Freischaltung bewegt zu werden:

– Zur ständigen Pflege der Website und des Rankings gehören Aktualisierungen der Sitemap, wenn auf einer indizierten URL Inhalte geändert wurden.
– Wenn es ganz schnell gehen soll, kann Google direkt um erneutes Crawlen der betreffenden URL gebeten werden.- Mitunter ist es notwendig, den Googlebot zu identifizieren, weil der Verdacht besteht, dass Spammer mit einem Googlebot Simulator auf eine Website zugreifen
– Bei der Suche der IP-Adressen helfen diese Artikel: internet-pr-beratung.de/robots-ip-adressbereiche und myip.ms/info/bots/Google_Bing_Yahoo_Facebook_etc_Bot_IP_Addresses.html oder Ihre Online-Marketing Agentur
– Wenn Domains umziehen, kann der richtige Umgang mit dem Googlebot eine Beeinträchtigungen des Rankings verhindern.
– Der Googlebot versteht etliche spezielle Tag-Erweiterungen, mit denen die Erscheinung von Seiten in den Suchergebnissen gesteuert werden kann
– Die Aktivität des Googlebots auf bestimmten Website lässt sich über die Crawling-Statistik abrufen
– Wenn Googles Crawler eine Website zu oft besuchen, lässt sich die Crawling-Frequenz ändern
– Jede Seite hat ein bestimmtes Crawl Budget (maximal gecrawlte Unterseiten), das bei großen Seiten nur durch Steuerung des Googlebots sinnvoll genutzt werden kann

Manche Webseiten sollen auch überhaupt nicht von Google indiziert werden, weil sie Informationen enthalten, die nicht für die Öffentlichkeit bestimmt oder zumindest für diese nicht interessant sind und das Ranking der öffentlichen Seiten mit Indizierung behindern würden. Dann besteht die Möglichkeit, dem Googlebot mit verschiedenen Methoden den Zugriff auf die Website zu verwehren oder auch bereits angezeigte Inhalte zu entfernen.

Wie das alles im Einzelnen funktioniert, können Sie in vielen, vielfach ineinander verschachtelten Anleitungen von Google nachlesen: https://developers.google.com/search/docs/advanced/crawling/overview. Sie können aber auch einfach Ihre Online-Marketing Agentur darauf ansprechen, für die der „Flirt mit dem Googlebot“ zum täglichen Geschäft gehört.

Bei Fragen oder Interesse nehmen Sie bitte einfach Kontakt zu uns auf.

SEO Deutschland – Die kreative SEO Agentur

Zurück zum SEO Glossar