Распознавание кодировки
От: emusic Франция https://software.muzychenko.net/ru
Дата: 23.06.05 03:38
Оценка:
Если утилитка, которая получает на входе текст (набор log-файлов), содержащий строки в разных кодировках. С перекодировкой однострочных MIME проблем нет, но вдобавок нужно еще и перекодировать отдельные строки в заранее неизвестной кодировке. То есть — проанализировать строку и распознать, в какой кодировке она поступила. В основном текст идет в koi8-r и windows-1251.

Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Re: Распознавание кодировки
От: Rumata Россия http://atamur.livejournal.com
Дата: 23.06.05 04:44
Оценка: +1 -1
Здравствуйте, emusic, Вы писали:

E>Если утилитка, которая получает на входе текст (набор log-файлов), содержащий строки в разных кодировках. С перекодировкой однострочных MIME проблем нет, но вдобавок нужно еще и перекодировать отдельные строки в заранее неизвестной кодировке. То есть — проанализировать строку и распознать, в какой кодировке она поступила. В основном текст идет в koi8-r и windows-1251.


E>Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?

Вам сюда http://www.rsdn.ru/search/
Re: Распознавание кодировки
От: What Беларусь  
Дата: 23.06.05 08:12
Оценка:
Здравствуйте, emusic, Вы писали:

E>Если утилитка, которая получает на входе текст (набор log-файлов), содержащий строки в разных кодировках. С перекодировкой однострочных MIME проблем нет, но вдобавок нужно еще и перекодировать отдельные строки в заранее неизвестной кодировке. То есть — проанализировать строку и распознать, в какой кодировке она поступила. В основном текст идет в koi8-r и windows-1251.


E>Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?


Как узнать в какой кодировки находится файл....
Автор:
Дата: 30.10.02
... << RSDN@Home 1.1.4 beta 7 rev. 447>>
Re: Распознавание кодировки
От: Kaa Украина http://blog.meta.ua/users/kaa/
Дата: 23.06.05 15:08
Оценка:
Здравствуйте, emusic, Вы писали:

E>Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?


Из дешевых статистических методов мне в последнее время понравился метод по частоте вхождения окончаний. Т.е., скалярное произведение между наборами пар символов, которые встречаются перед разделителями. Но этот метод работает только при наличии статистики на неком тексте, а не просто наборе символов на неком языке. Определить им качественно принадлежность, например, имени файла к языку и кодировке довольно тяжело: не хватит статистики, скорее всего.
Алексей Кирдин
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.