Was bedeutet Crawling?

Das Crawling wird von einem Crawler ausgeführt. Crawler sind Programme, die Webseiten finden und anschließend indexieren. Der Crawler von Google wird meist als Googlebot bezeichnet, andere Begriffe sind z.B. Webcrawler, Robots, Spider oder Searchbot. Das englische Wort “to crawl” bedeutet “kriechen”, da der Crawler sozusagen von einer Webseite zur nächsten kriecht.

Was macht der Crawler?

Auf technischer Seite sendet das Programm als HTTP-Client eine URL-Anfrage an den entsprechenden Server, der darauf eine Antwort mit Informationen sendet. Mit den Informationen arbeitet der Crawler wie in einer Bibliothek, indem er sie in Kategorien einordnet, indexiert und katalogisiert. Dadurch können sie später vom Programm selbst oder von anderen zugriffsberechtigten Programmen ausgewertet werden. Der Index ist somit eine riesige Datenbank voller Webseiten aus verschiedenen Bereichen. Neben der URL werden u.a. der Text, soziale Hinweise, Link-Signale und vieles mehr gespeichert. Crawling findet allerdings nicht nur bei Suchmaschinen statt. So nutzen auch Vergleichsportale das Crawling, um an Informationen und Produkte zu kommen oder im Feld des Data Mining werden öffentliche E-Mails und Postadressen von Unternehmen gesucht.

Wie Sie das Crawling leiten können

Auch innerhalb der Webanalyse sammeln Web-Tools spezielle Daten über Webpages. Da es Milliarden von Webseiten gibt, hat jeder Crawler nur ein bestimmtes Zeitbudget für jede Seite zur Verfügung, das sogenannte Crawl-Budget. Sie können in der Search Console positiv auf dieses Budget einwirken, z.B. mit einer XML-Sitemap. Ebenso sollte Ihre Seite ordentlich strukturiert sein und schnell laden. Je stärker Ihre Seite wird und je mehr Backlinks auf sie linken, desto größer wird auch das Crawling-Budget. Wie genau das Crawling-Budget von z.B. Google festgelegt wird, ist nicht bekannt. Dennoch können sie weniger relevante Seiten kennzeichnen, sodass diese nicht indexiert. Dies geschieht über einen “noindex” Robots-Meta-Tag oder über die Eintragung in der robots.txt-Datei der Search Console. In dieser Konsole können Sie außerdem nach Crawling-Fehlern und Statistiken Ausschau halten. So können fehlerhafte Verlinkungen oder andere Fehler, die zu einer Nicht-Indexierung geführt haben, behoben werden. Damit kann ebenfalls die Nutzererfahrung verbessert werden. 

Teilen Sie diesen Beitrag auf Social Media
LinkedIn
XING
Facebook
WhatsApp
Twitter
Email
Mehr Sichtbarkeit für Sie

Erhalten Sie einfach und transparent Unterstützung im online Marketing

Ihr Ansprechpartner

Sascha Humpel
CEO

Weitere Guide Beiträge finden Sie hier
Keyword Density

Was heißt Keyword-Density? Die Keyword-Dichte, oder auch Suchbegriffsdichte, bestimmt das Verhältnis von Suchbegriff und der Gesamtzahl der Wörter Ihres Contents. In der Suchmaschinenoptimierung wird die Berechnung der keyword density in

Weiterlesen »
Outbound Marketing

Was ist Outbound Marketing? Outbound Marketing ist eine veraltetes Marketing Konzept und wird oft auch “old Marketing” genannt. In dieser gibt es generell keine Zielgruppe.

Weiterlesen »
Sistrix Toolbox

Sistrix Toolbox Die Sistrix Toolbox ist unser Tool für den Sichtbarkeitsindex. Mit Sistrix erhalten wir einen detaillierten Bericht über die Sichtbarkeit einer Domain im Internet. Der enthaltende Index wertet Millionen von

Weiterlesen »