Update: Semantik-Bot hört auf robots.txt
Es gab ein paar Updates und Verbesserungen in den letzten Tagen und Wochen bei den Crawlprozessen. Sie sind dadurch zwar nicht schneller geworden, aber sicherer und stabiler. Eines der wichtigsten neuen Features ist die (längst überfällige) Unterstützung der robots.txt des semantischen Crawlers. Neben diesen und weiteren Bugfixes haben wir uns deshalb erlaub, dem Crawler eine neue Versionsnummer zu spendieren. Ab sofort ist der Semager-Bot mit “Semager/1.2″ in euren Logs zu finden.
Überprüfen könnt Ihr dies z.B. ganz einfach indem Ihr auf die Seite Webseiten-Analyse geht und dort eure URL überprüfen lasst. Der Crawler kommt sofort bei euch vorbei und meldet euch unter anderem URL Fehler und ob diese durch die robtos.txt gesperrt ist, falls Sie gesperrt ist.
Vielen herzlichen Dank an alle die uns geholfen haben Schwachstellen und Fehler aufzufinden, wie z.B.:
Diese Artikel könnten Sie auch interessieren:
Kommentare
Moin Moin!
Beim Hinzufügen meiner URL erscheint die Fehlermeldung “999 – Blocked by robots.txt”. Allerdings ist in meiner robots.txt weder Slurp noch Semager ausgeschlossen.
Wer versteht die robots.txt falsch: Ich oder der Robot? Ich hoffe, der Robot
Viele Grüße
Sven
Hallo Sven,
vielen Dank für den Hinweis, das Problem sollte behoben sein. Offensichtlich hat der Robot eine leere Anweisung hinter dem Disallow-Tag als voll erachtet.





