Если утилитка, которая получает на входе текст (набор log-файлов), содержащий строки в разных кодировках. С перекодировкой однострочных MIME проблем нет, но вдобавок нужно еще и перекодировать отдельные строки в заранее неизвестной кодировке. То есть — проанализировать строку и распознать, в какой кодировке она поступила. В основном текст идет в koi8-r и windows-1251.
Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?
... << RSDN@Home 1.1.4 beta 3 rev. 185>>