Bot Update mit neuer Versionsnummer
Da in letzter Zeit viel am Crawler von Semager gearbeitet worden ist, hat dieser mit dem jetzigen Update auch eine neue Versionsnummer und einen neuen User-Agent bekommen.
Der aktuelle Bot taucht im Internet als “Semager/1.4″ auf und hört auf die die Robots.txt unter den Einträgen “semager” bzw “*” für alle. Der neue User-Agent wurde an die Gepflogenheiten anderer Suchmaschinen angepasst und lautet nun “Mozilla/5.0 (compatible; Semager/1.4; http://www.semager.de/blog/semager-bots/)”.
Folgende Änderung sind mit diesem Update aktiv geworden:
- Erkennung unendlicher Weiterleitungen
- Korrekturen in der Erkennung von Frames und Iframes
- Handhabung von Cookies während eines Crawlervorgangs
- Verbesserte und schnellere Erkennung von Zeichensätzen
- Überprüfung der Korrektheit von DNS Einträgen vor dem Crawlvorgang
Weitere Hinweise finden Sie auch unter:
http://www.semager.de/blog/semager-bots/
Besuchte Webseiten auslesen
Sie kennen vielleicht die ein oder andere Webseite, bei der ein Menüpunkt oder eine Webseite welche Sie schon besucht haben, farblich anders markiert ist, als die noch unbekannten Webseiten. In den HTML-Spezifikationen gibt es dafür einen vorgesehenen “Befehl” (via Cascading Style Sheets), um die bereits besuchten Webseiten zu markieren. Ob das nun sinnvoll ist oder nicht, ist eine langwierige Diskussion und kann sicherlich nicht pauschal beantwortet werden. Was man jedoch pauschal beantworten kann, ist, dass es technisch möglich ist diese Informationen auch im Hintergrund auszulesen.
Zu diesem Zweck erzeugt man mit Javascript einen Teil der Webseite (Objekt), dieser wird jedoch nicht auf die Webseite als Text geschrieben, sondern befindet sich nur im Speicher und nicht im Bildschirm. Stellen wir uns nun vor dieses “Objekt” bestehe aus 10.000 Links zu verschiedenen Webseiten. Ihr Browser würde alle Links durchgehen und überprüfen, ob und welche dieser Seiten bereits besucht worden ist.
Dazu vergleicht Ihr Browser jeden Link mit Ihrer Browser-Historie. Standardmäßig speichert jeder Browser in dieser Browserhistorie (auch als “Verlauf” oder “Chronik” bekannt) die zuletzt von Ihnen besuchten Webseiten. Durch eine farbliche Zuweisung der bereits besuchten Webseiten, können Sie nun auslesen, ob eine dieser Links die neuen Farbwerte zugewiesen bekommen hat und somit feststellen, ob sie bereits besucht worden ist.
Die Kritik an dem Modell:
- Ist es rechtlich überhaupt gestattet die besuchten Seiten eines Benutzers zu “erschnüffeln”?
Bitte konsultieren Sie Ihren Anwalt! Ich kann Ihnen die Frage nicht korrekt beantworten. Da aber keine personenbezogenen Daten wie z.B. Name oder Telefonnummer dabei gesammelt werden, denke ich “ja”. Auf der anderen Seite gibt es aber vielleicht Probleme mit dem UWG, wenn Sie die Informationen nutzen, um z.B. passendere Werbung einzublenden? - Die Ausführung eines solchen Scriptes benötigt Zeit. Je länger Ihre Liste ist, um so mehr Aufwand zur Überprüfung entsteht. Wenn dann der Rechners des Benutzers vielleicht noch ein älteres Modell ist, können schnell mehrere Minuten Dauer entstehen, und das ist für die meisten Benutzer sicherlich eine recht nervende Angelegenheit und er kommt nie wieder auf Ihre Webseite.
- Eine Überprüfung der besuchten Webseite kann nur exakt auf eine URL erfolgen. D.h. man kann nicht prüfen, ob ein Benutzer irgendwo auf Ebay war, sonder man kann nur prüfen, ob er exakt auf http://www.ebay.de/ gewesen ist.
Wenn Sie nicht möchten, das jemand auslesen kann welche Webseiten Sie besucht haben, deaktivieren Sie einfach Ihre Browserhistorie. Wie das geht erfahren Sie hier:
Datenschutzstelle der Baden-Würtembergischen Universitäten
Viel Spaß beim sichereren Surfen…
Linkbaitdesjahres wird Linkbait des Jahres?!
SEOs sind schon gerissen…
Wie wir alle wissen sind Links die “Währung” im Internet. Wer mehr Links auf seine Webseite hat als seine Konkurrenz, dominiert die Suchergebnisse in Google, Bing und Co. Klingt ja auch logisch, den wenn man diesen Algorhytmus mal auf die reale Welt vergleichen würden, sähe das ungefähr so aus:
“Ich behaupte von mir 1,80m Groß zu sein. 10 Personen sagen aber das ich nur 1.65m bin. Wem würden Sie mehr glauben? Den 10 oder mir?”
D.h., ich kann soviel über mich (in meiner eigenen Webseite) erzählen was ich will, dass was die anderen (sprich Links zu meiner Webseite) sagen, gewichtet weitaus mehr.
Das bringt uns zu dem einen Schluss. Wer hat mehr Links? Oder vielmehr, wo bekomme ich mehr Links her als meine Mitbewerber? Der Schlüssel dazu heißt im Fachjargon “Linkbaiting”, was man am sinnvollsten mit “Linksködern” übersetzten könnte. Dahinter steckt zumeist ein interessanter Text oder witziges Video, das andere dazu anregt auf diesen Text oder dieses Video zu verlinken, um es seinen Freunden zu zeigen.
Als Beispiel, Sie fälschen ein UFO-Video und machen es der Welt auf Ihrer Homepage zugänglich. Binnen sehr kurzer Zeit werden Sie vermutlich viele Links auf Ihre Homepage, ob dieser “unglaublichen Entdeckung” bekommen. Natürlich muss es nicht gleich ein Hoax sein, eine gut Vorbereitete und witzige Kampagne tut es auch.
Vor kurzem wurde ein Wettbewerb ins Leben gerufen, welcher nur unter den Top50 der deutschen Suchmaschinenszene läuft. Bei diesen handelt es sich um einen Aufruf, einen Linkbait zu erzeugen. Dieser wird (falls ich das richtig verstanden habe) eingereicht und nach einer Zeit X mit den anderen eingereichten “Linkködern” verglichen. Anschließend wird der beste ausgewählt.
Kritik: Da diese Szene einige schwarze Schafe sich oft unlauterer Machenschaften bedienen und alles dafür tun an Links zu kommen, ist es nicht unwahrscheinlich, das diese Aktion möglicherweise selbst ein Linkbait ist. Die Informationen, die man auf der extra dafür eingerichtet Webseite bekommen kann, sind leider dürftig; in der SEO Blogosphäre wird darüber kaum bis gar nicht berichtet und es wurden Elemente einer “Verschwörung” mit viel “Geheimniskrämerei eingebaut”.
Ich lasse mich mal dazu hin, mich an dieser “Verschwörung” zu beteiligen, einfach nur um mehr darüber zu erfahren. Mag sein dass ich damit der oben genannten Kritik wiederspreche, dennoch werde ich das Thema weiterverfolgen und bei entsprechender Gelegenheit wieder darüber berichten.
Was passiert mit Yahoo BOSS?
Eine der aktuellsten Fragen in der SEO und Suchmaschinenszene ist, was passiert mit Yahoo BOSS (Build your own Search Engine). Ist doch Yahoo BOSS die Basis unzähliger Suchmaschinen, die mit diversen Methoden versuchen sich einen, wenn auch nur Promillewert, Anteil in der Nutzung der Suchmaschinen zu ergattern. Allein über diese Schnittstelle gehen täglich mehr als30 Millionen Anfragen ein und ist somit ein nicht zu unterschätzender Faktor für Yahoo. Bisher gibt es aber noch keine Möglichkeit mit Yahoo automatisch eine Partnerschaft einzugehen, so dass auch Werbung mit den Suchergebnissen ausgeliefert wird. Dies funktionert nur, wenn man Partner von Yahoo ist, und dort reinzukommen ist dieser Tage sehr schwierig. Zwar gab es bereits vor einiger Zeit ein paar Hinweise darauf, das eines Tages eine Version 2 der BOSS API erscheinen soll, die vielleicht diese Werbung ermöglichen könnte, doch bisher ist nichts weiter passiert. Auch von einem Bezahlmodell war einmal die Rede, doch zum Glück für die aktive Entwicklergemeinde ist hier noch nichts passiert.
Was kann alles passieren?
- Der Dienst wird abgeschaltet.
- Die Suchergebnisse werden von Microsoft Bing geliefert.
- Es bleibt kostenlos.
- Man verpflichtet sich Yahoo/Microsoft Werbung einzublenden.
- Man muss für die Abfragen bezahlen.
Der schlimmste Fall, das der Dienst eingestellt halte ich für unwahrscheinlich. Sind doch soviele, teilweise auch bekanntere Suchmaschinen wie Hakia, an Yahoo BOSS angeschlossen. Zudem sind die Möglichkeiten damit Geld zu verdienen einfach zu hoch. Rechnet man die 30 Millionen tägliche Queries auf einen prozentuallen Anteil am Suchmaschinenmarkt um, erhält man schon einen einstelligen Prozentwert. Und auf den verzichtet niemand freiwillig.
Stattdessen wird mittelfristig wohl versucht werden damit eine Mark mehr zu machen. Dies könnte z.B. so geschehen das die Anzahl der kostenlosen Anfragen pro Tag auf 10.000 limitiert wird. Darüber Hinaus, muss man entweder einen Betrag pro 1.000 weitere Abfragen bezahlen, oder man verpflichtet sich Yahoo/Microsoft Werbung einzublenden und erhält einen darüber Hinaus einen Revenue Share.
Letztere halte ich aus Sicht des Unternehmens für die sinnvollste Möglichkeit Marktanteile zu halten und davon zu profitieren. Dies wäre sicherlich auch aus Sicht der Entwicklergemeinde die sinnvollste Variante.
Was auch immer geschehen mag, drücken wir mal die Daumen, das es im Sinne aller ist.
Sobald es etwas neues gibt, werde ich euch umgehend darüber berichten.
Hier noch ein paar Quellen zum weiterlesen:




