Nimm Python, dann klappts auch mit dem Encoding
Dank Python und dem Universal Encoding Detector funktioniert nun auch die Erkennung der Webseiten-Encodierung. Zugegeben es ist ein bißchen “tricky” in PHP eingebunden und nicht gerade sauberer Programmierstil. Aber es klappt ganz gut. Sobald dann die PECL-Erweitung Python in Version 0.8.1 erscheint, sollte es auch möglich sein, die Python Klasse direkt aus der PHP Umgebung aufzurufen.
Folgende Codierungen werden nun erkannt:
- Big5, GB2312, GB18030, EUC-TW, HZ-GB-2312 und ISO-2022-CN (traditionelles und vereinfachtes Chinesisch)
- EUC-JP, SHIFT_JIS und ISO-2022-JP (Japanisch)
- EUC-KR und ISO-2022-KR (Koreanisch)
- KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5 und WINDOWS-1251 (Russisch)
- ISO-8859-2 und WINDOWS-1250 (Ungarisch)
- ISO-8859-5 und WINDOWS-1251 (Bulgarisch)
- WINDOWS-1252
- ISO-8859-7 und WINDOWS-1253 (Griechisch)
- ISO-8859-8 und WINDOWS-1255 (visuelles und logisches Hebräisch)
- TIS-620 (Thai)
- UTF-32, BE, LE, 3412-sortiert oder 2143-sortiert (mit BOM)
- UTF-16, BE oder LE (mit BOM)
- UTF-8 (mit oder ohne BOM)
- ASCII
Diese Artikel könnten Sie auch interessieren:





