Здравствуйте, Дюша, Вы писали:
Д>Необходимо реализовать агломеративный алгоритм кластеризации. Столкнулся с проблемой производительности.
Д>Задача: имеется набор данных, состоящий из 45222 записей. В каждой — 14 аттрибутов. Требуется находить две ближайших записи (т.е. чтобы расстояние между ними, измеряемое некой Distance Function, было минимально).
Надо смотреть в сторону SR-Tree.
http://research.nii.ac.jp/~katayama/homepage/research/srtree/English.html
Есть еще KD-Tree, оно значительно проще, но на высоких размерностях мало-эффективно. Вообще-то, на 10D и более все очень сильно зависит имено от кластеризации данных. Если распределение точек является равномерным, то ничего лучшего, чем прямой перебор придумать нельзя. При хорошей кластеризации SR-Tree работает хорошо.