Re[19]: Про кластеризацию

Спасибо за развернутый ответ. Сохранил в закладки. Точно пригодится.

я уже понял, что статья получилась "с середины" и это вызывает много вопросов.

Однако позволю себе целиком не согласиться со вторым абзацем (применительно к рассматриваемой статье). Дело в том (и это очень точно уловил SergH), что статья о другом. Не об алгоритме и его характеристиках, а о технических особенностях его реализации в рамках платформы WEKA. Я выбирал тему совершенно осознано, ориентируясь на то, что журнал/форум больше рассчитан на development, чем на алгоритмы. Видимо, здесь я и перегнул палку. Есть смысл говорить о том, что тема слишком узкая, а статья слишком маленькая и оттого непонятная. С этим я согласен. Но я не могу согласится, что в ней не хватает, например, мотивировки выбора дистанции Левенштейна. В конце концов, структура классов и бОльшая часть проблем связанных с их изменениями останутся прежними, даже если это будет какая-то другая функция расстояния. Обратите внимание, что ни один вывод не связан с дистанцией Левенштейна. Ключевой момент — сама структура данных, а не то, как считается расстояние между объектами.

Если позволите, я буду трактовать вашу критику следующим образом: "Тема статьи оказалась не очень понятной. Интересная статья могла бы получится, если писать о самом алгоритме и следовать следующим советам... [тут должен быть ваш пост]". С такой критикой я всецело бы согласился. В любом случае спасибо за отзыв. Если всё-таки статья о самом алгоритме получится — несомненно воспользуюсь советами.

P.S. Спорить с человеком, которому (вероятно) отдадут статью на проверку, наверное, была плохая идея.

Здравствуйте, mefrill, Вы писали:

M>Здравствуйте, A.A.R., Вы писали:

AAR>>1) По поводу путаницы с термином "цепочка". Если двое из трех отреагировавших на статью оказались в недоумении, значит, это моя вина и требуются пояснения. Действительно, когда речь идёт о "цепочке", мы говорим о некотором общем описании структуры данных: последовательность событий, фактов.

M>Вот так и надо было написать с самого начала. В разделе "Постановка задачи" необходимо было задачу поставить. Сначала сформулировать главную цель исследования, после чего разбить эту цель на несколько более частных и начать обсуждать возможные методы. Прежде всего, необходимо было построить математическую модель процесса. Если у Вас процесс -- это посещения врача пациентами, т.е. в качестве события выступает факт посещения, так об этом и напишите. После этого можно писать и о "цепочке событий", как о методе исследования взаимосвязи посещения пациентов поликлиники.

AAR>>2) "А зачем надо обрабатывать и кластеризовывать именно цепочки?". Здесь всё просто. Очень часто необходимая информация содержится в структуре. Простейший пример: предложение. Предложение (с запятыми, контекстом, порядком слов, кавычками и пр.) не есть просто набор слов и знаков пунктуации. Можно, конечно, рассматривать предложение как просто множество слов, но мы, вероятно, потеряем значимую информацию. Поэтому все чаще при обработке данных возникает необходимость учета их структуры. Аналогично и в данной работе: важно учесть последовательность услуг, их длительность, паузы между ними и т.д, а не только состав цепочки.

M>Это самая важная часть работы, в которой содержаться основные положения. Этой части, таким образом, необходимо было посвятить львиную долю изложения. Самое важное здесь -- корректная математическая модель процесса. Я бы рассматривал атрибуты события как элементы векторного пространства событий, а последовательности (цепочки) событий -- как траектории в этом пространстве. Тогда многие вещи становятся яснее. Выбор дистанции Левенштейна здесь ничем не мотивирован, это плохо. Мне кажется, можно придумать другие хорошие методы. Кроме того, у Вас здесь почти десяток атрибутов, можно было бы придумать различные расстояния, отражающие разные цели исследования. Можно было бы брать различные проекции на какие-то координаты атрибутов, кластеризовать по ним и смотреть, что получится. Мне бы, например, было бы интересно посмотреть траектории с совпадающими началами и еще траектории с совпадающими концами. Тогда можно было бы попытаться понять, на чем обычно расходятся посещения и, наоборот, где они сходятся (может всех в конце-концов на УЗИ отправляют

).

AAR>>3) Сам алгоритм сравнения цепочек в статью не вошел, т.к. мне казалось, что специфика журнала больше ориентирована на вопросы реализации, чем на сами алгоритмы. Статья с описанием алгоритма написана довольно давно и пока нигде не опубликована. Если вдруг (несмотря на скептическое отношение к обсуждаемой статье) вы считаете, что методы сравнения таких цепочек будут интересны читателям журнала — я с большим удовольствием актуализирую статью.

M>Для нормальной работы необходимо статью переписать. Прежде всего, составить план. Два самых важных раздела: формулировка целей работы и актуализация задач, и второй раздел -- обсуждение различных методов реализации и обоснование выбора конкретного метода. Это наиболее трудная часть работы, надо суметь придумать адекватную математическую модель исследуемого процесса. Первый раздел, введение, должен обосновывать необходимость самой задачи, ее актуальность. Когда в диссертации будете писать про актуальность, можно будет просто взять краткий реферат этого раздела. Четвертым разделом сделать описание выбранного инструмента реализации, зачем нужен, как обычно использовать. В пятом разделе описать проделанную работу и полученные результаты. В заключении написать резюме проделанной работы, в общем сказать о достигнутых результатах и о направлениях будущей работы. Вот, если бы была такая статья, всем сразу было бы все понятно и все бы только хвалили, а не ругали.

	От:	A.A.R.
	Дата:	05.05.12 12:11
	Оценка: