Re[2]: Кластеризация строки в тексте

Поиск ведется одной стоки. Длинна строки 3 буквы, но это не суть важно. Кластер это скопление моей последовательности на неком участке. Критерий кластера: частота встречаемости последовательности на этом участке (кластере) >=p. При этом длина участка не является фиксированной (имеется только ограничение на минимальную длину). Таких кластеров в тексте может встретиться сколько угодно много, нужно найти координаты начала и конца каждого из них.

Например, средняя частота встречаемости строки в тексте 0.04, мне нужно найти все участки (кластеры) длинной не менее 200 букв, в которых частота встречаемости строки составляет не менее 0.1.

Проблема с доказательством гипотезы заключается в том, что в случайно сгенерированном тексте, чисто случайно будет некоторое количество таких кластеров. По сему нужно как-то доказать, что найденные кластеры в моем тексте не являются случайными для определенного уровня значимости (например для уровня значимости 0.99).

P.S.
p = количество вхождений строки / длина участка для поиска;
средняя частота встречаемости строки в тексте = количество вхождений строки / длинна текста

	От:	serjjj
	Дата:	11.01.08 07:42
	Оценка: