Nimm Python, dann klappts auch mit dem Encoding

Dank Python und dem Universal Encoding Detector funktioniert nun auch die Erkennung der Webseiten-Encodierung. Zugegeben es ist ein bißchen “tricky” in PHP eingebunden und nicht gerade sauberer Programmierstil. Aber es klappt ganz gut. Sobald dann die PECL-Erweitung Python in Version 0.8.1 erscheint, sollte es auch möglich sein, die Python Klasse direkt aus der PHP Umgebung aufzurufen.

Folgende Codierungen werden nun erkannt:

  • Big5, GB2312, GB18030, EUC-TW, HZ-GB-2312 und ISO-2022-CN (traditionelles und vereinfachtes Chinesisch)
  • EUC-JP, SHIFT_JIS und ISO-2022-JP (Japanisch)
  • EUC-KR und ISO-2022-KR (Koreanisch)
  • KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5 und WINDOWS-1251 (Russisch)
  • ISO-8859-2 und WINDOWS-1250 (Ungarisch)
  • ISO-8859-5 und WINDOWS-1251 (Bulgarisch)
  • WINDOWS-1252
  • ISO-8859-7 und WINDOWS-1253 (Griechisch)
  • ISO-8859-8 und WINDOWS-1255 (visuelles und logisches Hebräisch)
  • TIS-620 (Thai)
  • UTF-32, BE, LE, 3412-sortiert oder 2143-sortiert (mit BOM)
  • UTF-16, BE oder LE (mit BOM)
  • UTF-8 (mit oder ohne BOM)
  • ASCII

Diese Artikel könnten Sie auch interessieren:

Name (notwendig)
Email (notwendig, wird aber nicht veröffentlicht)
Website