Bots
Die Semager-Bots sind Webcrawler unserer Suchmaschine. Dabei handelt es sich um Computerprogramme, die Texte im World Wide Web herunterladen und diese über die Web- und Wörtersuche von Semager auffindbar machen.
Intern wird dabei unterschieden zwischen dem Webcrawler für den Index und für die Semantik. Nach außen sind diese jedoch vollkommen identisch.
- Der Webcrawler für den Index entstammt aus dem Open-Source Projekt Nutch und beachtet alle in der robots.txt hinterlegten Anweisungen. Um unseren Crawler auszusperren benutzen Sie bitte folgende Angabe in der robots.txt:
User-agent: semager
Disallow: /
Damit werden nur die Semager-Bots von der Seite ausgesperrt. Sie können aber auch nur einzelne Dateien oder Verzeichnisse für unseren Bot aussperren. Hinweise dazu entnehmen Sie bitte obigen Link zur robots.txt.
- Der Webcrawler für die Semantik unterstützt die robots.txt ebenfalls und beachtet oben genannte Direktiven während des Crawlings. Im übrigen können sie diese Funktionalität auch in unserer Webseiten Analyse testen. Sollte es zu Fehlermeldungen oder Unregelmäßigkeiten kommen, geben Sie uns bitte Bescheid – wir kümmern uns sofort darum.
- URL bzw. Ihre Seite/Domain anmelden und vorschlagen, Suchmaschineneintrag:
Um Ihre Internetseite in unsere Suchmaschine aufzunehmen, klicken Sie bitte hier: AddURL. Eine garantierte Aufnahme in unseren Index können wir aufgrund mangelnder Ressourcen nicht gewährleisten. Sollte Ihre Seite gut von anderen Internetseiten verlinkt sein, werden wir sie ohnehin in unseren Index aufnehmen. In diesem Fall ist eine Übermittlung Ihrer URL nicht nötig.
- User-Agent
Sie können unseren Webcrawler über folgenden User-Agent identifizieren:
Aktuell:
Mozilla/5.0 (compatible; Semager/1.4; http://www.semager.de/blog/semager-bots/)
Veraltet:
Semager/1.3 (http://www.semager.de/blog/semager-bots/)
Semager/1.2 (http://www.semager.de/blog/semager-bots/)
Semager/1.1 (http://www.semager.de/blog/semager-bots/)
Semager/1.0 (Semager; http://www.semager.de)
Semager/1.0 (http://www.semager.de)
Diese Artikel könnten Sie auch interessieren:
Kommentare
[...] Bots [...]
Warum geben Sie in Ihrem robots.txt Beispiel * an,
damit sperren unbedarfte Webmaster ihre Seite für alle Crawler.
Ändern Sie das doch bitte in die korrekte Angabe “semager”
Anmrk.d.Red.:Hi, die Angabe Semager zur Sperrung der Webseite nur für Semager stand unmittelbar im darauffolgenden satz. Es kann jedoch sein, das dieser überlesen wird, da die meisten Webmaster nur nach der Konfigurationsanweisung suchen. Wir haben das entsprechend geändert.
Aha,
also gibt’s doch einen BOT-String, aber wie sieht es aus? Ist eurer Spider mittlerweile “schlauer” und “Bug-Free”?
$ grep Semager logfile
212.114.209.251 johannburkard.de [28/Jan/2008:14:35:48 +0100] “GET /de/ HTTP/1.1″ 200 6642 “-” “Semager/1.1 (http://www.semager.de/blog/semager-bots/)” “-”
$
Bis der Bot nach robots.txt fragt, ist er auf meinem Server geblockt. Ich kann nur dringend empfehlen, sich darum zu kümmern.
Update 5.2.2008:
Hallo,
vielen Dank für den Hinweis. Es sollten nun allen “Disallow” Direktiven in der robots.txt gefolgt werden.
Vielen lieben Dank für den Besuch Ihres Bots auf meiner Seite (in den Logs gesehen)
- – - [10/Oct/2007:12:17:34 +0200] “GET / HTTP/1.1″ 200 13331 “http://www.semager.de/” “Semager/1.1 (http://www.semager.de/blog/semager-bots/)”
Das ist Referrer-Spamming und verstösst gegen die HTTP/1.0- bzw. HTTP/1.1-RFC’s. Bitte nachlesen und Bug beheben.
Sehr geehrter Herr Disch,
vielen Dank für den Hinweis. Wir kümmern uns sofort darum.
Update: Fehler wurde behoben, 16.11.2007





