AnalysisServices - алгоритм кластеризации последовательносте
От: Аноним  
Дата: 01.02.10 09:05
Оценка:
Есть несколько источников сигнала — образцы материала, около 80 штук, подаются импульсы и смотрится отраженный сигнал, по сути каждый источник сигнала при активизации генерит некую случайную последовательность импульсов в базе хранится как значение интенсивности. Задача — c помощью datamining попытаься определить источник по последовательности импульсов.

сейчас таблица выглядит так :

ID_Source, ID_Experiment, NumberOfSequence, Intensity

где ID_Source — идентификатор источника, ID_Experiment — номер эксперимента, NumberOfSequence — номер импульса в текущем эксперименте, Intensity — значение интенсивности.


Несколько вопросов возникло

1 Как указать что является номером эксперимента, а что есть номер в цепочке одного эксперимента и то и другое ключ а два ключа использовать нельзя.

На сайте microsoft написано
http://msdn.microsoft.com/ru-ru/library/cc645866.aspx

В таблице вариантов должен быть столбец идентификатора варианта. По желанию таблица вариантов может также содержать другие столбцы, в которых хранятся атрибуты, описывающие этот вариант.

Алгоритм кластеризации последовательностей (Майкрософт) требует информации о последовательности, хранящейся в виде вложенной таблицы. Во вложенной таблице должен быть один столбец Key Sequence. Столбец Key Sequence может содержать любые типы данных, которые можно сортировать, в том числе строковые, но для каждого варианта значение столбца должно быть уникальным. Более того, до обработки модели следует убедиться, что и таблица вариантов, и вложенная таблица отсортированы в порядке возрастания по ключу, связывающему эти таблицы.



Вот не понятно , по идее у меня ID_Experiment это Key, а как вот указать Sequence чтобы он правильно воспринял последовательность — что импульсы шли в порядке 10, 20, 30 а не 30,20,10 ведь в базе фиизчески они могут лежать как угодно.
Когда делаю Sequence как второй ключ выдается ошибка
Error 1 Mining Structure 'Data Mining Structure 1' : There are multiple key columns defined: [ID_Experiment], [ NumberOfSequence].

2 Как сделать чтобы он обучался на основе моей информации о кластерах, а не пытался сам строить кластеры

Задание параметров алгоритма
В следующей таблице описываются параметры, которые можно использовать с алгоритмом кластеризации последовательностей (Майкрософт).

CLUSTER_COUNT
Указывает примерное количество кластеров, строящихся данным алгоритмом. Если это примерное количество кластеров не может быть построено из данных, то алгоритм строит столько кластеров, сколько возможно. Значение 0 параметра CLUSTER_COUNT приводит к тому, что алгоритм начинает использовать эвристический подход для определения оптимального числа строящихся кластеров.

Значение по умолчанию равно 10.


То есть я и так знаю что у меня 80 кластеров это ID_Source, как объяснить что ID_Source это и есть кластер, то есть по идее система на основании обучающей статистики последовательности для каждого кластера ( уже заранее известного ) должна предсказать номер кластера для новой последовательности.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.