Re[2]: Проверка на текстовый файл.

Здравствуйте, trophim, Вы писали:

T>Я делал по среднеквадратичному отклонению вероятностей значений байта.

T>Это только звучит заумно, а на самом деле элементарно. Сначала готовим эталонные таблицы вероятностей.
T>1. Берем любой текстовый файл (англ\рус) — считаем для него вероятности появления всех значений (0..255).
T>2. В бинарном файле появление всех значений равновероятно (т.е. == 1/256).
T>3. Теперь, имея 2 таких таблички, читаем проверяемый файл (можно и не весь, а только часть или, как я — кусок в начале, в середине и в конце), подсчитываем как и выше вероятности появления значений байта.
T>4. Смотрим на какую эталонную таблицу больше будет похоже то, что мы насчитали (считаем среднеквадратичное отклонение: чем оно меньше, тем больше схожесть).
T>5. Делаем вывод о том, на что больше похож наш файл: на текст или на бинарник.
T>6. Думаем, что мы молодцы, потому как у меня все работало на ура.

Работать на ура будет только на больших файлах.

	От:	GreyJedi
	Дата:	15.05.06 06:22
	Оценка: