Если утилитка, которая получает на входе текст (набор log-файлов), содержащий строки в разных кодировках. С перекодировкой однострочных MIME проблем нет, но вдобавок нужно еще и перекодировать отдельные строки в заранее неизвестной кодировке. То есть — проанализировать строку и распознать, в какой кодировке она поступила. В основном текст идет в koi8-r и windows-1251.
Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Здравствуйте, emusic, Вы писали:
E>Если утилитка, которая получает на входе текст (набор log-файлов), содержащий строки в разных кодировках. С перекодировкой однострочных MIME проблем нет, но вдобавок нужно еще и перекодировать отдельные строки в заранее неизвестной кодировке. То есть — проанализировать строку и распознать, в какой кодировке она поступила. В основном текст идет в koi8-r и windows-1251.
E>Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?
Вам сюда
http://www.rsdn.ru/search/
Здравствуйте, emusic, Вы писали:
E>Если утилитка, которая получает на входе текст (набор log-файлов), содержащий строки в разных кодировках. С перекодировкой однострочных MIME проблем нет, но вдобавок нужно еще и перекодировать отдельные строки в заранее неизвестной кодировке. То есть — проанализировать строку и распознать, в какой кодировке она поступила. В основном текст идет в koi8-r и windows-1251.
E>Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?
Как узнать в какой кодировки находится файл....Автор:
Дата: 30.10.02
... << RSDN@Home 1.1.4 beta 7 rev. 447>>
Здравствуйте, emusic, Вы писали:
E>Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?
Из дешевых статистических методов мне в последнее время понравился метод по частоте вхождения окончаний. Т.е., скалярное произведение между наборами пар символов, которые встречаются перед разделителями. Но этот метод работает только при наличии статистики на неком
тексте, а не просто наборе символов на неком языке. Определить им качественно принадлежность, например, имени файла к языку и кодировке довольно тяжело: не хватит статистики, скорее всего.