Crawler
Als Crawler oder Webcrawler werden Software-Programme bezeichnet, die das Internet durchsuchen.
Dabei analysieren und indizieren sie Inhalte von Websites wie Texte und Bilder oder auch Videos. Es sind vor allem Suchmaschinen-Provider, die Crawler für die Indizierung von Websites verwenden. Synonym werden auch die Begriffe Bot, Spider oder Searchbot verwendet.
Entstehung der Webcrawler
In den 1990er Jahren wurde mit dem „World Wide Web Wanderer“ ein Crawler entwickelt, der mit seiner Arbeit zunächst nur messen sollte, wie stark das Internet wächst. Aus diesem Ansporn heraus entstand mit dem Namen „Webcrawler“ 1994 eine Suchmaschine mit Volltextindex, die erstmals für die Öffentlichkeit zugänglich war. Heute tragen alle Programme, die das Internet automatisiert durchsuchen, den Namen Crawler oder Webcrawler.
Interessant ist, dass die Aktivitäten der Suchmaschinen-Robots zusammen mehr als ein Drittel des weltweiten Traffics im Internet ausmachen.
Funktionsweise eines Crawlers
Ein Crawler arbeitet im Vorfeld definierte Aufgaben sukzessive ab. So werden ihm z. B. am Anfang einige URLs vorgegeben, die er besuchen soll. Diese Liste wird auch „crawl frontier“ oder „Crawl-Grenze“ genannt. Beim Durchsuchen des Webs folgt er dabei prinzipiell jedem Link, den er auf einer Website entdeckt. Ein Webcrawler kann bei seiner Arbeit sowohl Hyperlinks als auch HTML-Code überprüfen. Einschränkungen sind dabei jedoch das Linkattribut rel=“nofollow “ oder eine limitierte Zeit, die der Crawler für die Analyse einer Internet-Seite verwenden darf. Nachdem eine Seite durchsucht worden ist, kann sie nahezu komplett von einem Suchmaschinenrobot kopiert werden, damit sie später im Suchmaschinenindex schneller durchsucht werden kann.
Ein Internetspider funktioniert immer in Abhängigkeit bestimmter Regeln sowie einer limitierten Anzahl an Seiten und Downloads. Aus diesem Grund kann es geschehen, dass eine Seite schon wieder aktuellere Inhalte bereitstellt, wenn der Crawler seine gesamte Arbeit gerade abgeschlossen hat.
Gängige Regeln geben Antworten auf folgende Fragen:
- welche Seiten soll der Crawler herunterladen?
- wann soll der Crawler die jeweilige Website wieder besuchen?
- wie wird verhindert, dass der Spider zu große Server-Last verursacht?
- wie kann die Arbeit von parallel arbeitenden Bots koordiniert werden?
Auch wenn die Technik der Bots immer besser wird, können bis dato nur Teile des Internet bzw. des World Wide Web durchsucht werden. Hocheffiziente Crawler wie der Googlebot sollen jedoch auch schon Elemente des sogenannten Deep Web durchsuchen können. Hiermit sind z. B. vor allem separate Datenbanken gemeint, die nicht direkt über eine URL erreicht werden können.
Verschiedene Spider für unterschiedliche Zwecke
Auch wenn heute viele Unternehmen mit Webcrawlern arbeiten, entfällt ein Hauptteil des Crawlings auf die Robots von Suchmaschinen-Providern, welche das Internet permanent nach aktuellen Inhalten abrufen und so die Indizes mit neuen Daten speisen.
Es gibt jedoch noch weitere Aufgaben, die ein Crawler erledigen kann, die wir hier kurz skizzieren:
- Focused Crawler: dieser Webspider ist auf ein bestimmtes Themengebiet ausgerichtet. Dabei wird der Crawler üblicherweise so programmiert, dass er sowohl Websites als auch die gefundenen Links klassifiziert.
- Data Mining: diese Crawler durchforsten das Web auf der Suche nach spezifischen Daten. Dies können User-Profile ebenso wie Mail-Adressen von Firmen sein. Robots, die lediglich Adressen sammeln, werden auch als „Harvester“ (dt.: Maschine zum Ernten) bezeichnet. Diese Spider nutzen z. T. auch Blackhat-SEOs, um später an die gesammelten Mail-Adressen Spam-Mails zu senden.
- Vermessung und Analyse des Internets: diese Robots dienen häufig wissenschaftlichen Zwecken, um z. B. zu messen, welche Ausbreitung das Internet hat.
- Plagiatssuche oder Recherche nach urheberrechtlich geschütztem Material: diese Bots kommen immer dann zum Einsatz, wenn Rechtsbrüche aufgedeckt werden sollen.
- Scraping: es gibt viele Websites im Web, die mit kopierten Inhalten arbeiten. Auf diese Weise kopieren z. B. manche Preisvergleichsportale Inhalte von Anbieter*innen auf ihre Seiten. Manche Spam -Websites „scrapen“ jedoch, um auf einfache Weise Content zu erhalten. Diese letztgenannte Maßnahme wird jedoch von Google als manipulativ betrachtet und kann zum Ausschluss aus dem Suchindex führen.
Namen von bekannten Webcrawlern
Crawler von Suchmaschinen verwenden üblicherweise eine feste Kennung als User Agent, damit sie von einem Server identifiziert werden können.
Google verwendet z. B. gleich mehrere verschiedene Crawler für die Websuche, die Bildersuche, für Google AdSense, für Google Ads , aber auch für mobile Websites. Beispiele hierfür sind: googlebot, googlebot-mobile, etc.
Der von Yahoo verwendete Crawler nennt sich Yahoo!Slurp, die Suchmaschine Bing nutzt den bingbot. Als Webdienst hat auch Alexa einen eigenen Bot, der das Netz durchsucht. Er nennt sich ia_archiver.
Für Administrator*innen von Websites ist es wichtig, dass jeder Bot seine Kennung trägt. Denn es kann vorkommen, dass der Besuch durch bestimmte Crawler nicht erwünscht ist. Diese können dann per robots.txt ausgeschlossen werden.
Anweisungen für Bots
Es gibt gängige Regeln, um einem Crawler die Arbeit auf einer Website zu untersagen. Dabei können sowohl einzelne Dateien als auch ganze Webseiten vom Besuch oder auch vom Indizieren ausgeschlossen werden. Die eine Möglichkeit besteht darin, eine robots.txt-Datei zu hinterlegen. Befehle können dann folgendermaßen aussehen:
- User-agent: Googlebot
Disallow: In diesem Beispiel wird dem Googlebot gesagt, dass er die komplette Seite nicht besuchen darf. - User-agent: Googlebot-Image
Disallow: /privat
Hier wird dem Googlebot mitgeteilt, dass er die Bilder im Ordner „privat“ nicht durchsuchen darf. - User-agent: Googlebot
Disallow: /User-agent: Mediapartners-Google
Disallow:
Wer z. B. Bildanzeigen auf seinen Websites anbietet und nicht möchte, dass diese Werbeseiten vom Haupt-Crawler für den Google-Index durchsucht werden, verwendet diese Version.
Meta Tags zur Steuerung von Crawlern
Mit Hilfe von Meta-Tags, die im <head>-Bereich einer Website eingefügt werden, können weitere Anweisungen an Crawler gegeben werden. So lässt sich z. B. verhindern, dass ein Bot eine Seite indiziert. Zugleich verlangt das Attribut „nofollow“, dass der Bot den Links auf dieser Seite nicht folgt. Hier ein Beispiel für den Bingbot:
<meta name=“robots“ content=“nofollow“><meta name=“bingbot“ content=“noindex“>
Konsequenzen für die Suchmaschinenoptimierung
Alle Webmaster sowie SEOs sollten Interesse daran haben, dass ihre Websites optimal von Crawlern durchsucht werden können, damit alle Inhalte auch in den Index der Suchmaschinen gelangen. Um die Arbeit der Crawler zu steuern, empfiehlt es sich unbedingt, eine leistungsfähige robots.txt-Datei anzulegen. Wichtig ist aber ebenso, dass sensible Bereiche ganz von der Indizierung ausgeschlossen werden. Über den Eintrag „noindex“ in den Meta-Angaben kann dieses Ziel erreicht werden. Über die Steuerung des Robots lässt sich außerdem verhindern, dass doppelte Kategorieseiten sowie Archive in Blog-CMS wie WordPress in die Indizes der Suchmaschinen gelangen.
Grundsätzlich kann man davon ausgehen, dass eine möglichst flache sowie logische URL-Struktur dazu führt, dass eine Website leichter gecrawlt werden kann. Je stärker eine Seite zudem verlinkt ist, desto häufiger und länger wird sie schließlich auch von Webcrawlern besucht. Folglich sind zwei Faktoren entscheidend für einen häufigen Crawler-Besuch: eine hohe Anzahl an Backlinks sowie eine übersichtliche interne Verlinkung.