Re: Агломеративный алгоритм кластеризации
От: McSeem2 США http://www.antigrain.com
Дата: 12.01.08 17:24
Оценка: 6 (1)
Здравствуйте, Дюша, Вы писали:

Д>Необходимо реализовать агломеративный алгоритм кластеризации. Столкнулся с проблемой производительности.

Д>Задача: имеется набор данных, состоящий из 45222 записей. В каждой — 14 аттрибутов. Требуется находить две ближайших записи (т.е. чтобы расстояние между ними, измеряемое некой Distance Function, было минимально).

Надо смотреть в сторону SR-Tree. http://research.nii.ac.jp/~katayama/homepage/research/srtree/English.html
Есть еще KD-Tree, оно значительно проще, но на высоких размерностях мало-эффективно. Вообще-то, на 10D и более все очень сильно зависит имено от кластеризации данных. Если распределение точек является равномерным, то ничего лучшего, чем прямой перебор придумать нельзя. При хорошей кластеризации SR-Tree работает хорошо.
McSeem
Я жертва цепи несчастных случайностей. Как и все мы.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.