Bots

Die Semager-Bots sind Webcrawler unserer Suchmaschine. Dabei handelt es sich um Computerprogramme, die Texte im World Wide Web herunterladen und diese über die Web- und Wörtersuche von Semager auffindbar machen.

Intern wird dabei unterschieden zwischen dem Webcrawler für den Index und für die Semantik. Nach außen sind diese jedoch vollkommen identisch.

  • Der Webcrawler für den Index entstammt aus dem Open-Source Projekt Nutch und beachtet alle in der robots.txt hinterlegten Anweisungen. Um unseren Crawler auszusperren benutzen Sie bitte folgende Angabe in der robots.txt:
    User-agent: semager
    Disallow: /
  • Damit werden nur die Semager-Bots von der Seite ausgesperrt. Sie können aber auch nur einzelne Dateien oder Verzeichnisse für unseren Bot aussperren. Hinweise dazu entnehmen Sie bitte obigen Link zur robots.txt.

  • Der Webcrawler für die Semantik unterstützt die robots.txt ebenfalls und beachtet oben genannte Direktiven während des Crawlings. Im übrigen können sie diese Funktionalität auch in unserer Webseiten Analyse testen. Sollte es zu Fehlermeldungen oder Unregelmäßigkeiten kommen, geben Sie uns bitte Bescheid – wir kümmern uns sofort darum.
  • User-Agent
  • Sie können unseren Webcrawler über folgenden User-Agent identifizieren:

    Aktuell:
    Mozilla/5.0 (compatible; Semager/1.4; http://www.semager.de/blog/semager-bots/)


    Veraltet:
    Semager/1.3 (http://www.semager.de/blog/semager-bots/)
    Semager/1.2 (http://www.semager.de/blog/semager-bots/)
    Semager/1.1 (http://www.semager.de/blog/semager-bots/)
    Semager/1.0 (Semager; http://www.semager.de)
    Semager/1.0 (http://www.semager.de)