Meistgelesenen Sprachen im Internet
Immer wieder stößt man bei unseren massiven Webseitenanalysen auf viele interessante Nebenergebnisse. Ein Beispiel – ich habe mir mal die Zeit genommen und die Top 50.000 Alexa Webseiten untersucht und nach Sprachen sortiert. Welche Sprache kommt wie häufig vor? Hier die Ergebnisse:
Englisch: 26.104
Deutsch: 3.569
Chinesisch: 2.637
Spanisch: 2.248
Russisch: 2.075
Japanisch: 1.895
Französisch: 1.756
Arabisch: 1.295
Portugiesisch: 1.009
Italienisch: 918
Türkisch: 551
Niederländisch: 526
Polnisch: 475
Koreanisch: 359
Tschechisch: 303
Slovakisch: 268
Thai: 195
Ungarisch: 189
Rumänisch: 171
Persisch: 170
Finnisch: 120
Griechisch: 117
Dänisch: 106
Norwegisch: 105
Vietnamesisch: 104
Man sieht sehr deutlich welche Länder wie stark im Internet vertreten sind. Den großen Vorsprung der englischen Sprache gegenüber allen anderen, ist vermutlich durch die vielen .com, .org, .net Domains in aller Länder zu erklären, teilweise spielen auch noch .edu und .gov eine Rolle. Fakt ist und bleibt jedoch: Englisch ist die Sprache des Internets (über 50% aller starken Webseiten).
Kategorisierung von Webseiten und Texten
In diesem Podcast geht um die automatische Kategorisierung von Texten, im speziellen um die von Webseiten. Es wird kurz auf verschiedene Möglichkeiten zur Kategorisierung von Webseiten eingegangen.
Natürlich sind die vorgestellten Methoden auf alle Textdaten anwendbar, ob Bücher, Auszüge, Artikel oder Webseiten.
Stichworte: Kategoriesysteme, Ontologien, Worthäufigkeit, Themencluster, Vektoren, Gravitationszentrum, “Kreise zeichnen
”
Die Inhalte sind vielleicht für den ein oder anderen ein wenig zu theoretisch, das liegt aber nunmal in der Sache dieses Themas. Danach wißt Ihr aber trotzdem ungefähr bescheid
. Viel Spaß
PS: Hintergrundmusik via CCMixter (The Savvy & The Chic Vol.1 *mixed by Hektor Thillet*).
Javascript und CSS verkleinern
Da ich gerade mal so etwas gebraucht habe, habe ich schnell mal einen CSS und Javascript compressor geschrieben und ihn als API online gestellt.
Das Tool verkleinert Javascript und CSS (Cascading Style Sheets) um bis zu 70%. Nützlich wenn man Bandbreite sparen will und die Benutzer die Internetseite damit schneller laden können.
CSS: entfernt alle Zeilenumbrüche, Tabulatoren, Kommentare, doppelte oder unnütze Leerzeichen, Semikolons im letzten Attribut, Anführungszeichen in URL-Angaben, globalisiert Anführungszeichen und verkürzt Hexadezimale Farbangaben (#ff0088 wird zu #f08).
Javascript: benutzt eine PHP Portierung von Dean Edwards JavaScript compressor.
Hier gehts zur API:
http://www.semager.de/api/minimizer.php
Ihr könnt sie sowohl online als auch automatisiert nutzen, wie ihr wollt => Free 4 all.
Viel Spaß dabei.
Automatisierte semantische Marktforschung
Zur Zeit wird bei Semager mal wieder kräftig experimentiert. Dank eines neuen Partners (Artebis) werden vielleicht in Zukunft bei einigen Queries (nach Möglichkeit natürlich bei allen) eine automatisierte Bewertung/Marktforschung von Suchergebnissen mitlaufen.
Wie das ganze funktioniert wird an dieser Stelle natürlich nicht verraten. Es gibt ohnehin schon genügend Nachahmer. Man denke nur mal an Einblendung von “verwandten Begriffen” die Semager vor etwa 2.5 Jahren eingeführt hat und wielange es dauerte bis es bei Google, Yahoo und MSN plötzlich auch zu finden war. Oder an die Möglichkeit sich passende Suchbegriffe nach Analyse der Webseite anzeigen zu lassen oder an die Einführung neuronaler Netze um Semantik zu berechnen…
Dieses mal beschäftigen wir uns mit “semantischer Marktforschung in Echtzeit”, einer Möglichkeit anhand der Analyse von Suchanfragen und deren Ergebnissen, jede Webseite/Marke auf Kriterien wie z.B. Zufriedenheit, Servicequalität oder weitere mit anderen Webseiten/Marken zu vergleichen.
Das schwierige hierbei ist aus einer Suchanfrage und den potentiellen Ergebnissen a) die richtige Menge von zu vergleichenden Marken zu extrahieren und b) eine Menge von zu vergleichenden Kriterien zu erstellen. Schauen wir mal wie sich das ganze weiterentwickelt. Hier jetzt aber erstmal eine Voschau wie so etwas aussehen könnte, wenn jemand nach “Postbank” sucht:

Nett oder? Man darf also weiter gespannt sein…





