Javascript und CSS verkleinern
Da ich gerade mal so etwas gebraucht habe, habe ich schnell mal einen CSS und Javascript compressor geschrieben und ihn als API online gestellt.
Das Tool verkleinert Javascript und CSS (Cascading Style Sheets) um bis zu 70%. Nützlich wenn man Bandbreite sparen will und die Benutzer die Internetseite damit schneller laden können.
CSS: entfernt alle Zeilenumbrüche, Tabulatoren, Kommentare, doppelte oder unnütze Leerzeichen, Semikolons im letzten Attribut, Anführungszeichen in URL-Angaben, globalisiert Anführungszeichen und verkürzt Hexadezimale Farbangaben (#ff0088 wird zu #f08).
Javascript: benutzt eine PHP Portierung von Dean Edwards JavaScript compressor.
Hier gehts zur API:
http://www.semager.de/api/minimizer.php
Ihr könnt sie sowohl online als auch automatisiert nutzen, wie ihr wollt => Free 4 all.
Viel Spaß dabei.
Besuchte Webseiten auslesen
Sie kennen vielleicht die ein oder andere Webseite, bei der ein Menüpunkt oder eine Webseite welche Sie schon besucht haben, farblich anders markiert ist, als die noch unbekannten Webseiten. In den HTML-Spezifikationen gibt es dafür einen vorgesehenen “Befehl” (via Cascading Style Sheets), um die bereits besuchten Webseiten zu markieren. Ob das nun sinnvoll ist oder nicht, ist eine langwierige Diskussion und kann sicherlich nicht pauschal beantwortet werden. Was man jedoch pauschal beantworten kann, ist, dass es technisch möglich ist diese Informationen auch im Hintergrund auszulesen.
Zu diesem Zweck erzeugt man mit Javascript einen Teil der Webseite (Objekt), dieser wird jedoch nicht auf die Webseite als Text geschrieben, sondern befindet sich nur im Speicher und nicht im Bildschirm. Stellen wir uns nun vor dieses “Objekt” bestehe aus 10.000 Links zu verschiedenen Webseiten. Ihr Browser würde alle Links durchgehen und überprüfen, ob und welche dieser Seiten bereits besucht worden ist.
Dazu vergleicht Ihr Browser jeden Link mit Ihrer Browser-Historie. Standardmäßig speichert jeder Browser in dieser Browserhistorie (auch als “Verlauf” oder “Chronik” bekannt) die zuletzt von Ihnen besuchten Webseiten. Durch eine farbliche Zuweisung der bereits besuchten Webseiten, können Sie nun auslesen, ob eine dieser Links die neuen Farbwerte zugewiesen bekommen hat und somit feststellen, ob sie bereits besucht worden ist.
Die Kritik an dem Modell:
- Ist es rechtlich überhaupt gestattet die besuchten Seiten eines Benutzers zu “erschnüffeln”?
Bitte konsultieren Sie Ihren Anwalt! Ich kann Ihnen die Frage nicht korrekt beantworten. Da aber keine personenbezogenen Daten wie z.B. Name oder Telefonnummer dabei gesammelt werden, denke ich “ja”. Auf der anderen Seite gibt es aber vielleicht Probleme mit dem UWG, wenn Sie die Informationen nutzen, um z.B. passendere Werbung einzublenden? - Die Ausführung eines solchen Scriptes benötigt Zeit. Je länger Ihre Liste ist, um so mehr Aufwand zur Überprüfung entsteht. Wenn dann der Rechners des Benutzers vielleicht noch ein älteres Modell ist, können schnell mehrere Minuten Dauer entstehen, und das ist für die meisten Benutzer sicherlich eine recht nervende Angelegenheit und er kommt nie wieder auf Ihre Webseite.
- Eine Überprüfung der besuchten Webseite kann nur exakt auf eine URL erfolgen. D.h. man kann nicht prüfen, ob ein Benutzer irgendwo auf Ebay war, sonder man kann nur prüfen, ob er exakt auf http://www.ebay.de/ gewesen ist.
Wenn Sie nicht möchten, das jemand auslesen kann welche Webseiten Sie besucht haben, deaktivieren Sie einfach Ihre Browserhistorie. Wie das geht erfahren Sie hier:
Datenschutzstelle der Baden-Würtembergischen Universitäten
Viel Spaß beim sichereren Surfen…
Algo Updates
- Die Berechnung des verwendeten Zeichensatzes einer Webseite erfolgt nun mit Utrac. Die Geschwindkeit der Analyse einzelner Webseite wurde damit um bis zu 25% erhöht.
- Es wurden neue Filter bei der Berechnung der nächsten verwandten Wörter hinzugefügt. Diese führen dazu, dass nun Wörter die zwar verwandt sind, aber sich nicht in nächster Nähe aufhalten, im Ranking fallen.
- Es wurde ein Update auf allen Maschinen mit den neuesten Wortverwandschaften aufgespielt.
- Die Kategorisierung erhielt weitere Kategorien und verbesserte Wortfilter.
- Design: In den Suchergebnissen wurden einige Anpassungen am Design vorgenommen.
- Blog: Das Blog wurde vollständig überarbeitet. Neben den Update am Design wurde das ganze System neu aufgesetzt und alle vorhandenen Plugins aktualisiert.
Nutch 1.0 erschienen
Endlich ist die lang ersehnte Version 1.0 des OpenSource Frameworks Nutch erschienen. Nach fast 2jähriger Entwicklungszeit ist Nutch mit etlichen Verbesserungen, Updates und immer neuen Features nun sicherlich eine ernstzunehmende und kostenlose Alternative gegenüber den Lizenzpflichtigen Suchmaschinen,wie z.B. von Google. Die komplette Liste der Änderungen findet Ihr in dem Nutch-Changelog.
Die wichtigsten Änderungen neben den zahlreichen Bugfixes, ist sicherlich die Integration Solr, einem Enterprise Search Server und die Updates auf die neuesten Versionen von Lucene (Indezes) und Hadoop (verteiltes Crawlen und Indizieren von Webseiten).
Ich hoffe auf viele interessante, neue und autonome Projekte, um den gängigen Suchmaschinen mit vertikalen Suchmaschinen (sprich, nur auf eine Branche ausgerichtet) den Kampf anzusagen. Mit dieser Technik – Ja, möglich.
Sobald ich erste Ergebnisse habe, bekommt Ihr Sie gleich von mir. Ich vermute ich werde dies in Form von Podcasts machen und euch in mehreren Sendungen durch eine Installation begleiten.
Viel Spaß beim Crawlen
Matthias
Semantik nun stärker eingebunden als bisher
Im letzten Update der Suchfunktionen von Semager wurde die Gewichtung der Semantik verstärkt. Das heißt, das nunmehr nicht nur sehr stark verwandte Wörter in die Suche mit einfließen, sondern besonders bei Mehrwort-Abfragen, nun auch das Gesamtkonzept aller Suchbegriffe ein mehr an Bedeutung findet.
Im Hintergrund passiert dabei folgendes: es wird berechnet, welche Gemeinsamkeiten alle genannten Suchbegriffe haben und daraus eine “Wortwolke” berechnet. In dieser Wortwolke befindet sich eine Sammlung von Wörter die mal mehr, mal weniger mit den einzelnen Suchbegriffen zu tun haben. Anschließend werden die besten Kandidaten dieser Wortwolke identifziert und die Suche um diese Begriffe angereichert.
So löst eine Suche nach “paris” nun eine zusätzliche Suche nach
- hilton,
- pariser,
- eiffelturm,
- frankreich und
- disneyland
aus. Wie man an dem Beispiel sieht, wird die Suche um Namen, Orte und Gebäude sinnvoll erweitert. Die Suchergebnisse können sich entsprechend sehen lassen (hier).
Meiner persönlichen Meinung nach sind diese Treffer eine Bereicherung der Suche und den Suchergebnissen von Google weit voraus, aber urteilen Sie dich bitte selbst (Google Suche nach “Paris”).
PS: Es wird übrigens derzeit stark an einem Kategorisierungssystem gearbeitet. Die ersten Ergebnisse werden in ca. 2 Wochen in der Webseiten-Anaylse online gehen. Nach weiterem Feintuning erfolgt dann die Clusterbildung in den normalen Suchergebnissen. Man darf also weiter gespannt sein
| « ältere Einträge |




