Распознавание кодировки - Алгоритмы

Если утилитка, которая получает на входе текст (набор log-файлов), содержащий строки в разных кодировках. С перекодировкой однострочных MIME проблем нет, но вдобавок нужно еще и перекодировать отдельные строки в заранее неизвестной кодировке. То есть — проанализировать строку и распознать, в какой кодировке она поступила. В основном текст идет в koi8-r и windows-1251.

Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?

... << RSDN@Home 1.1.4 beta 3 rev. 185>>

Здравствуйте, emusic, Вы писали:

E>Если утилитка, которая получает на входе текст (набор log-файлов), содержащий строки в разных кодировках. С перекодировкой однострочных MIME проблем нет, но вдобавок нужно еще и перекодировать отдельные строки в заранее неизвестной кодировке. То есть — проанализировать строку и распознать, в какой кодировке она поступила. В основном текст идет в koi8-r и windows-1251.

E>Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?
Вам сюда http://www.rsdn.ru/search/

Здравствуйте, emusic, Вы писали:

E>Если утилитка, которая получает на входе текст (набор log-файлов), содержащий строки в разных кодировках. С перекодировкой однострочных MIME проблем нет, но вдобавок нужно еще и перекодировать отдельные строки в заранее неизвестной кодировке. То есть — проанализировать строку и распознать, в какой кодировке она поступила. В основном текст идет в koi8-r и windows-1251.

E>Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?

Как узнать в какой кодировки находится файл....

... << RSDN@Home 1.1.4 beta 7 rev. 447>>

Здравствуйте, emusic, Вы писали:

E>Как это надежнее всего делать? Понятно, что нужно строить некую статистику по вхождению разных кодовых байтов, плюс анализировать слова, строчные/прописные буквы и т.п. Есть какие-нибудь рекомендации на этот счет от тех, кто подобной проблемой занимался и породил достаточно эффективные алгоритмы распознавания?

Из дешевых статистических методов мне в последнее время понравился метод по частоте вхождения окончаний. Т.е., скалярное произведение между наборами пар символов, которые встречаются перед разделителями. Но этот метод работает только при наличии статистики на неком тексте, а не просто наборе символов на неком языке. Определить им качественно принадлежность, например, имени файла к языку и кодировке довольно тяжело: не хватит статистики, скорее всего.

От:	emusic	https://software.muzychenko.net/ru
Дата:	23.06.05 03:38
Оценка:

От:	Rumata	http://atamur.livejournal.com
Дата:	23.06.05 04:44
Оценка:	+1 -1

	От:	What
	Дата:	23.06.05 08:12
	Оценка:

От:	Kaa	http://blog.meta.ua/users/kaa/
Дата:	23.06.05 15:08
Оценка: