Unstimmigkeiten beim encoding von Webseiten

Es ist gar nicht so einfach die richtige Codierung einer Webseite automatisiert erkennen zu lassen. Das Problem dabei ist, das sich die verwendeten Beschreibungen mitunter wiedersprechen. So gibt es Webseiten die im HTTP-Response Header und im MetaTag einen westeuropäischen Zeichensatz angeben (ISO-8859-1), der Inhalt der Webseite dann aber in einem generischen Zeichensatz (UTF-8) codiert ist. Wem soll man glauben schenken?

Außerdem ist es gar nicht so einfach den verwendeten Zeichensatz im Inhalt wirklich richtig zu erkennen. Zwar ist es einfach, aus dem Header und den MetaTags die Angaben zu extrahieren, beim Inhalt sieht aus aber anders aus. Es gibt viele verschiedene Zeichensätze die im Grunde alle gesondert behandelt werden müssten (siehe Tabelle am Ende von List_Encoding). Eine einzelner Funktionsaufruf, um mal schnell den richtigen davon zu finden gibt es leider nicht. Und so müssen dann Schritt für Schritt alle abgearbeitet werden. Das könnte noch ein weilchen dauern…

Wenn Jemand einen Vorschlag hat wie man das in PHP realisieren kann, bitte um einen Kommentar. DANKE.

Diese Artikel könnten Sie auch interessieren:

Name (notwendig)
Email (notwendig, wird aber nicht veröffentlicht)
Website