Re: Агломеративный алгоритм кластеризации

Здравствуйте, Дюша, Вы писали:

Д>Необходимо реализовать агломеративный алгоритм кластеризации. Столкнулся с проблемой производительности.
Д>Задача: имеется набор данных, состоящий из 45222 записей. В каждой — 14 аттрибутов. Требуется находить две ближайших записи (т.е. чтобы расстояние между ними, измеряемое некой Distance Function, было минимально).

Надо смотреть в сторону SR-Tree. http://research.nii.ac.jp/~katayama/homepage/research/srtree/English.html
Есть еще KD-Tree, оно значительно проще, но на высоких размерностях мало-эффективно. Вообще-то, на 10D и более все очень сильно зависит имено от кластеризации данных. Если распределение точек является равномерным, то ничего лучшего, чем прямой перебор придумать нельзя. При хорошей кластеризации SR-Tree работает хорошо.

От:	McSeem2	http://www.antigrain.com
Дата:	12.01.08 17:24
Оценка:	6 (1)