Здравствуйте, A.A.R., Вы писали:
AAR>1) По поводу путаницы с термином "цепочка". Если двое из трех отреагировавших на статью оказались в недоумении, значит, это моя вина и требуются пояснения. Действительно, когда речь идёт о "цепочке", мы говорим о некотором общем описании структуры данных: последовательность событий, фактов.
Вот так и надо было написать с самого начала. В разделе "Постановка задачи" необходимо было задачу поставить. Сначала сформулировать главную цель исследования, после чего разбить эту цель на несколько более частных и начать обсуждать возможные методы. Прежде всего, необходимо было построить математическую модель процесса. Если у Вас процесс -- это посещения врача пациентами, т.е. в качестве события выступает факт посещения, так об этом и напишите. После этого можно писать и о "цепочке событий", как о методе исследования взаимосвязи посещения пациентов поликлиники.
AAR>2) "А зачем надо обрабатывать и кластеризовывать именно цепочки?". Здесь всё просто. Очень часто необходимая информация содержится в структуре. Простейший пример: предложение. Предложение (с запятыми, контекстом, порядком слов, кавычками и пр.) не есть просто набор слов и знаков пунктуации. Можно, конечно, рассматривать предложение как просто множество слов, но мы, вероятно, потеряем значимую информацию. Поэтому все чаще при обработке данных возникает необходимость учета их структуры. Аналогично и в данной работе: важно учесть последовательность услуг, их длительность, паузы между ними и т.д, а не только состав цепочки.
Это самая важная часть работы, в которой содержаться основные положения. Этой части, таким образом, необходимо было посвятить львиную долю изложения. Самое важное здесь -- корректная математическая модель процесса. Я бы рассматривал атрибуты события как элементы векторного пространства событий, а последовательности (цепочки) событий -- как траектории в этом пространстве. Тогда многие вещи становятся яснее. Выбор дистанции Левенштейна здесь ничем не мотивирован, это плохо. Мне кажется, можно придумать другие хорошие методы. Кроме того, у Вас здесь почти десяток атрибутов, можно было бы придумать различные расстояния, отражающие разные цели исследования. Можно было бы брать различные проекции на какие-то координаты атрибутов, кластеризовать по ним и смотреть, что получится. Мне бы, например, было бы интересно посмотреть траектории с совпадающими началами и еще траектории с совпадающими концами. Тогда можно было бы попытаться понять, на чем обычно расходятся посещения и, наоборот, где они сходятся (может всех в конце-концов на УЗИ отправляют

).
AAR>3) Сам алгоритм сравнения цепочек в статью не вошел, т.к. мне казалось, что специфика журнала больше ориентирована на вопросы реализации, чем на сами алгоритмы. Статья с описанием алгоритма написана довольно давно и пока нигде не опубликована. Если вдруг (несмотря на скептическое отношение к обсуждаемой статье) вы считаете, что методы сравнения таких цепочек будут интересны читателям журнала — я с большим удовольствием актуализирую статью.
Для нормальной работы необходимо статью переписать. Прежде всего, составить план. Два самых важных раздела: формулировка целей работы и актуализация задач, и второй раздел -- обсуждение различных методов реализации и обоснование выбора конкретного метода. Это наиболее трудная часть работы, надо суметь придумать адекватную математическую модель исследуемого процесса. Первый раздел, введение, должен обосновывать необходимость самой задачи, ее актуальность. Когда в диссертации будете писать про актуальность, можно будет просто взять краткий реферат этого раздела. Четвертым разделом сделать описание выбранного инструмента реализации, зачем нужен, как обычно использовать. В пятом разделе описать проделанную работу и полученные результаты. В заключении написать резюме проделанной работы, в общем сказать о достигнутых результатах и о направлениях будущей работы. Вот, если бы была такая статья, всем сразу было бы все понятно и все бы только хвалили, а не ругали.