Semager-Bot mit neuer Versionsnummer
Nach einigen Verbesserungen im Crawler, gibt es nun eine neue Versionsnummer “1.3″. Für Webmaster ändert sich dadurch nichts, der Bot hört nach wie vor auf die Anweisungen in der robots.txt, die entweder unterhalb “*” (jeder Crawler wird angesprochen) oder “semager” stehen (Anweisungen nur speziell nur für den Semager Bot).
Die wichtigsten Änderungen sind:
- Es wurde ein Fehler korrigiert, der dazu führte das die robots.txt mehrfach bei einem Seitenaufruf geladen wurde. Dies war insbesondere dann der Fall, wenn die Seite über Frames verfügte.
- Der Semager-Bot unterstützt jetzt ebenfalls Wildcard-Anweisungen (z.B: Disallow: /test/*.html).
- Einige Verbesserungen und Patches in der Fehlererkennung.
- Bessere Erkennung von Weiterleitungen.
Update Textduplikate Finden
Das Tool Textduplikate finden erhielt ein rudimentäres Update.
Unter Erkennung von Textduplikaten könnt Ihr nun neben der Sprache auch angeben, nach wievielen Zweiwort-Phrasen, Dreiwort-Phrasen oder einzelnen Wörtern gesucht werden soll. Damit wird die Wahrscheinlichkeit zum auffinden eines Textduplikates wesentlich erhöht. Die hier voreingestellten Standardwerte sind ein ganz guter Anfang, ihr könnt aber auch gerne andere Zahlen ausprobieren.
Die einzige Beschränkung ist die auf 250 Zeichen Suchstring. Habt Ihr zuviele Wörter zur Suche ausgewählt, findet Semager nichts, da Ihr eventuell die Länge des Queries überschritten habt. Das Tool gibt euch jedoch eine Warnmeldung heraus, fall das der Fall sein sollte.
Ebenfalls verbessert wurde die Sprachauswahl. Ihr könnt nun zwischen Deutsch, Englisch, Französisch, Spanisch und Italienisch auswählen. Die letzten 3 Sprachen sind aber noch in der Anfangsphase und wurden deshalb als Alpha gekennzeichnet.
Viel Erfolg beim Finden von Dieben…
PS: Natürlich läßt sich das Tool auch automatisiert nutzen. In dem Fall schickt doch bitte einfach eine Nachricht über Kontaktformular.
site-Suche korrigiert
Bei der site-Suche haben sich ein paar (ähem) Fehler eingeschlichen (zugegeben, es ging vorher überhaupt nicht). Das wurde jetzt korrigiert und Ihr könnte nach Herzenslust abfragen, ob eure Domain und wenn ja mit wieviele Seite im Index vertreten ist.
Die site-Suche lässt sich noch prima mit normalen Suchbegriffen kombinieren. So könnt Ihr mit z.B. der Abfrage site:de.wikipedia.org mp3
herausfinden, welche deutschsprachigen Wikipedia Seiten es zum Thema “MP3″ gibt.
Ähnlich verhält es sich, wenn man einfach mal seinen Domainnamen eingibt. Früher wurde dann der Query zerlegt und in semantische Häppchen aufgeteilt, was an dieser Stelle natürlich überhaupt keinen Sinn machte. Dem ist jetzt nicht mehr so und Domainnamen werden ab sofort als ganzes abgefragt.
Viel Spaß mit den (endlich) neuen Funktionen
PS: Danke an e-sushi.net für den Hinweis.
Google Chrome ist böse
Oder haben Sie eine bessere Erklärung dafür, warum es nicht möglich ist andere Suchmaschinen zu installieren, so wie es bei allen anderen Browsern auch der Fall ist?
Meine Meinung:
Wie kann ich den die Amazon Suchfunktion einbinden, wo sind die Einstellungen dafür? Offensichtlich vorenthalten, Google will wohl nicht, dass man andere Dienste benutzt. Schön einen auf OpenSource machen und dann so etwas. Wenn das mal nicht “evil” ist …
Und dann war da noch (alles in Bezug auf Google Chrome):
Datenschützer skeptisch
Java Exploit
Großteil ist geklaut (siehe Diskussion in den Kommentaren)
Chrome ist Datenspion




