Was bedeutet Crawling?

Das Crawling wird von einem Crawler ausgeführt. Crawler sind Programme, die Webseiten finden und anschließend indexieren. Der Crawler von Google wird meist als Googlebot bezeichnet, andere Begriffe sind z.B. Webcrawler, Robots, Spider oder Searchbot. Das englische Wort “to crawl” bedeutet “kriechen”, da der Crawler sozusagen von einer Webseite zur nächsten kriecht.

Was macht der Crawler?

Auf technischer Seite sendet das Programm als HTTP-Client eine URL-Anfrage an den entsprechenden Server, der darauf eine Antwort mit Informationen sendet. Mit den Informationen arbeitet der Crawler wie in einer Bibliothek, indem er sie in Kategorien einordnet, indexiert und katalogisiert. Dadurch können sie später vom Programm selbst oder von anderen zugriffsberechtigten Programmen ausgewertet werden. Der Index ist somit eine riesige Datenbank voller Webseiten aus verschiedenen Bereichen. Neben der URL werden u.a. der Text, soziale Hinweise, Link-Signale und vieles mehr gespeichert. Crawling findet allerdings nicht nur bei Suchmaschinen statt. So nutzen auch Vergleichsportale das Crawling, um an Informationen und Produkte zu kommen oder im Feld des Data Mining werden öffentliche E-Mails und Postadressen von Unternehmen gesucht.

Wie Sie das Crawling leiten können

Auch innerhalb der Webanalyse sammeln Web-Tools spezielle Daten über Webpages. Da es Milliarden von Webseiten gibt, hat jeder Crawler nur ein bestimmtes Zeitbudget für jede Seite zur Verfügung, das sogenannte Crawl-Budget. Sie können in der Search Console positiv auf dieses Budget einwirken, z.B. mit einer XML-Sitemap. Ebenso sollte Ihre Seite ordentlich strukturiert sein und schnell laden. Je stärker Ihre Seite wird und je mehr Backlinks auf sie linken, desto größer wird auch das Crawling-Budget. Wie genau das Crawling-Budget von z.B. Google festgelegt wird, ist nicht bekannt. Dennoch können sie weniger relevante Seiten kennzeichnen, sodass diese nicht indexiert. Dies geschieht über einen “noindex” Robots-Meta-Tag oder über die Eintragung in der robots.txt-Datei der Search Console. In dieser Konsole können Sie außerdem nach Crawling-Fehlern und Statistiken Ausschau halten. So können fehlerhafte Verlinkungen oder andere Fehler, die zu einer Nicht-Indexierung geführt haben, behoben werden. Damit kann ebenfalls die Nutzererfahrung verbessert werden. 

Teilen Sie diesen Beitrag auf Social Media
LinkedIn
XING
Facebook
WhatsApp
Twitter
Email
Mehr Sichtbarkeit für Sie

Erhalten Sie einfach und transparent Unterstützung im online Marketing

Ihr Ansprechpartner

Sascha Humpel
CEO

Weitere Guide Beiträge finden Sie hier
IONOS Partner

Wir sind IONOS-Partner – was heißt das? Als Ionos Partner können wir für Sie ein Local Listing erstellen. Wir benutzen dabei Ihre NAP (engl.: name, address, phone number)

Weiterlesen »
Homepage Baukasten

Homepage Baukasten Große Hosting Anbieter wie z.B. Strato oder 1und1 haben sie. Firmen wie Wix oder Jimdo sind darauf sepzialisiert. Die rede ist vom Homepage Baukasten. Mit ihm

Weiterlesen »
FTP

Was ist der FTP? Der Begriff FTP oder auch File Transfer Protocol ist erstmals im Jahre 1985 aufgetaucht. Das Datenübertragungsprotokoll dient, wie der Name schon verrät,  zur Übertragung von

Weiterlesen »