Распознавание кодировки
От: emusic Франция https://software.muzychenko.net/ru
Дата: 23.06.05 03:38
Оценка:
Если утилитка, которая получает на входе текст (набор log-файлов), содержащий строки в разных кодировках. С перекодировкой однострочных MIME проблем нет, но вдобавок нужно еще и перекодировать отдельные строки в заранее неизвестной кодировке. То есть — проанализировать строку и распознать, в какой кодировке она поступила. В основном текст идет в koi8-r и windows-1251.

Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.