Поиск ведется одной стоки. Длинна строки 3 буквы, но это не суть важно. Кластер это скопление моей последовательности на неком участке. Критерий кластера: частота встречаемости последовательности на этом участке (кластере) >=p. При этом длина участка не является фиксированной (имеется только ограничение на минимальную длину). Таких кластеров в тексте может встретиться сколько угодно много, нужно найти координаты начала и конца каждого из них.
Например, средняя частота встречаемости строки в тексте 0.04, мне нужно найти все участки (кластеры) длинной не менее 200 букв, в которых частота встречаемости строки составляет не менее 0.1.
Проблема с доказательством гипотезы заключается в том, что в случайно сгенерированном тексте, чисто случайно будет некоторое количество таких кластеров. По сему нужно как-то доказать, что найденные кластеры в моем тексте не являются случайными для определенного уровня значимости (например для уровня значимости 0.99).
P.S.
p = количество вхождений строки / длина участка для поиска;
средняя частота встречаемости строки в тексте = количество вхождений строки / длинна текста