Есть несколько источников сигнала — образцы материала, около 80 штук, подаются импульсы и смотрится отраженный сигнал, по сути каждый источник сигнала при активизации генерит некую случайную последовательность импульсов в базе хранится как значение интенсивности. Задача — c помощью datamining попытаься определить источник по последовательности импульсов.
сейчас таблица выглядит так :
ID_Source, ID_Experiment, NumberOfSequence, Intensity
где ID_Source — идентификатор источника, ID_Experiment — номер эксперимента, NumberOfSequence — номер импульса в текущем эксперименте, Intensity — значение интенсивности.
Несколько вопросов возникло
1 Как указать что является номером эксперимента, а что есть номер в цепочке одного эксперимента и то и другое ключ а два ключа использовать нельзя.
На сайте microsoft написано
http://msdn.microsoft.com/ru-ru/library/cc645866.aspx
В таблице вариантов должен быть столбец идентификатора варианта. По желанию таблица вариантов может также содержать другие столбцы, в которых хранятся атрибуты, описывающие этот вариант.
Алгоритм кластеризации последовательностей (Майкрософт) требует информации о последовательности, хранящейся в виде вложенной таблицы. Во вложенной таблице должен быть один столбец Key Sequence. Столбец Key Sequence может содержать любые типы данных, которые можно сортировать, в том числе строковые, но для каждого варианта значение столбца должно быть уникальным. Более того, до обработки модели следует убедиться, что и таблица вариантов, и вложенная таблица отсортированы в порядке возрастания по ключу, связывающему эти таблицы.
Вот не понятно , по идее у меня ID_Experiment это Key, а как вот указать Sequence чтобы он правильно воспринял последовательность — что импульсы шли в порядке 10, 20, 30 а не 30,20,10 ведь в базе фиизчески они могут лежать как угодно.
Когда делаю Sequence как второй ключ выдается ошибка
Error 1 Mining Structure 'Data Mining Structure 1' : There are multiple key columns defined: [ID_Experiment], [ NumberOfSequence].
2 Как сделать чтобы он обучался на основе моей информации о кластерах, а не пытался сам строить кластеры
Задание параметров алгоритма
В следующей таблице описываются параметры, которые можно использовать с алгоритмом кластеризации последовательностей (Майкрософт).
CLUSTER_COUNT
Указывает примерное количество кластеров, строящихся данным алгоритмом. Если это примерное количество кластеров не может быть построено из данных, то алгоритм строит столько кластеров, сколько возможно. Значение 0 параметра CLUSTER_COUNT приводит к тому, что алгоритм начинает использовать эвристический подход для определения оптимального числа строящихся кластеров.
Значение по умолчанию равно 10.
То есть я и так знаю что у меня 80 кластеров это ID_Source, как объяснить что ID_Source это и есть кластер, то есть по идее система на основании обучающей статистики последовательности для каждого кластера ( уже заранее известного ) должна предсказать номер кластера для новой последовательности.