Re[19]: Про кластеризацию - Алгоритмы

SH>Теперь я убеждаю редактора добавить в начало статьи примечание от редакции с извинениями перед читателями. Он пока надеется, что можно спустить на тормозах и ничего не делать.

В разделе "Базы данных" тоже болтается парочка забавных статей из разряда "+1 к публикациям"

http://rsdn.ru/forum/db/4714713.1.aspx

http://rsdn.ru/forum/db/4713481.1.aspx

05.05.12 23:30: Ветка выделена из темы Матричный алгоритм шифрования — Кодт

Здравствуйте, avpavlov, Вы писали:

A>В разделе "Базы данных" тоже болтается парочка забавных статей из разряда "+1 к публикациям"

В них по крайней мере есть что читать. (На эту я вышел через них, мнения о тех еще не составил.)

Здравствуйте, avpavlov, Вы писали:

A>В разделе "Базы данных" тоже болтается парочка забавных статей из разряда "+1 к публикациям"

A>http://rsdn.ru/forum/db/4714713.1.aspx

A>http://rsdn.ru/forum/db/4713481.1.aspx

Проблема в том, что такие статьи обычно написаны таким языком, что не специалисту трудно разобраться и найти концы. Автор употребляет какие-то слова по теме, уверенно составляет из них запутанные предложения и производит впечатление человека, который знает, что пишет.

Специалист, читая статью, ищет существенную часть, пытается понять в чём же идея. И всю эту чепуху просматривает не читая, так как понимает, что идея не в этом. Не специалист плохо понимает, как должна бы выглядеть основная идея, поэтому вынужден продираться через все дебри.

Вот например к обсуждаемой статье, про шифрование -- поскольку я примерно представляю себе, что будет являться алгоритмом шифрования, а что заведомо не будет, я все построения автора пропустил вплоть до "а теперь выполняем гаммирование". Прочитав это место я всё про автора и статью понял, ушло на это примерно пять минут. Редактору гораздо сложнее. И в области БД я, к сожалению, примерно в том же положении, что и редактор. Так что если вы в комментариях к статьям доступно объясните, в чем состоят ключевые проблемы -- может быть что-то изменится, если нет, то увы.

Судя по тому, что написано в комментариях сейчас, там всё не так запущено, по крайней мере явной ереси нет. То есть статьи просто не интересны (похоже? поправь если я понял не правильно). Боюсь, что при нынешнем количестве статей отсеивать ещё и по этому параметру редакция не сможет. Да и технически не сможет -- для этого нужны профессиональные рецензенты, желающих на эту роль тоже оказывается не так много.

SH>Судя по тому, что написано в комментариях сейчас, там всё не так запущено,

Знаешь, когда "строка базы данных", которая в англоязычном мире называется "row/record/tuple", в их статье называется "string" (здравствуй, промпт!), наводит меня на подозрения, что авторы — дилетанты, не имеющие представления о том, что происходит за пределами их кафедры.

SH>по крайней мере явной ереси нет.

Ереси там нет, но сама статья написана так, что всё происходящие в области БД на последние дцать лет просвистело мимо авторов. Это всё равно как сейчас написать статью, что использовать С вместо ассемблера — это нормально, мол компиляторы генерируют достаточно эффективный код, использовать ф-ции вместо прямых переходов между сегментами кода — это тоже нормально, мол накладные расходы на поддержку стэка вызовов невелики, и т.д. Всё это полная правда, но зачем писать об этом в 2012 году?

Про WEKA я не могу рассуждать, потому что не имею опыта работы, но статья выглядит как несвязанные куски "чего-то". Почитай (и попытайся понять о чём идёт речь!) в секции "Реализация меры близости для сравнения двух цепочек" — это же бред какой-то!

SH>Специалист, читая статью, ищет существенную часть, пытается понять в чём же идея. И всю эту чепуху просматривает не читая, так как понимает, что идея не в этом. Не специалист плохо понимает, как должна бы выглядеть основная идея, поэтому вынужден продираться через все дебри.

Собственно, я не пытался упрекнуть редакцию журнала и сайта. Просто дал ссылки

Здравствуйте, avpavlov, Вы писали:

SH>>Специалист, читая статью, ищет существенную часть, пытается понять в чём же идея. И всю эту чепуху просматривает не читая, так как понимает, что идея не в этом. Не специалист плохо понимает, как должна бы выглядеть основная идея, поэтому вынужден продираться через все дебри.

A>Собственно, я не пытался упрекнуть редакцию журнала и сайта. Просто дал ссылки

Я бы предложил публиковать на сайте (в журнале поступайте как хотите!) статьи тех авторов, кто имеет историю присутствия на сайте, чтобы их статьи можно было с ними обсудить. Сейчас видно, что авторов нет на сайте и не будет, обсуждение им пофиг, им только важно получить "+1 к публикациям". В итоге только местный народ взбудоражился и всё

Здравствуйте, SergH, Вы писали:

A>>В разделе "Базы данных" тоже болтается парочка забавных статей из разряда "+1 к публикациям"
A>>http://rsdn.ru/forum/db/4714713.1.aspx
A>>http://rsdn.ru/forum/db/4713481.1.aspx

SH>Проблема в том, что такие статьи обычно написаны таким языком, что не специалисту трудно разобраться и найти концы. Автор употребляет какие-то слова по теме, уверенно составляет из них запутанные предложения и производит впечатление человека, который знает, что пишет.

Этого одного достаточно, чтобы не пропустить статью.

Здравствуйте, avpavlov, Вы писали:

A>Про WEKA я не могу рассуждать, потому что не имею опыта работы, но статья выглядит как несвязанные куски "чего-то". Почитай (и попытайся понять о чём идёт речь!) в секции "Реализация меры близости для сравнения двух цепочек" — это же бред какой-то!

Я там бреда не увидел. "Цепочка" -- вполне устоявшийся термин в формальных языках. Хотя здесь, конечно, надо бы использовать "цепочка символов" или "строка символов". В научных статья вообще трудно понять о чем речь, тут уже ничего не поделаешь. Уровень статьи невысокий, это правда, но для публикации, как мне кажется, годится.

A>>Про WEKA я не могу рассуждать, потому что не имею опыта работы, но статья выглядит как несвязанные куски "чего-то". Почитай (и попытайся понять о чём идёт речь!) в секции "Реализация меры близости для сравнения двух цепочек" — это же бред какой-то!

M>Я там бреда не увидел. "Цепочка" -- вполне устоявшийся термин в формальных языках. Хотя здесь, конечно, надо бы использовать "цепочка символов" или "строка символов". В научных статья вообще трудно понять о чем речь, тут уже ничего не поделаешь. Уровень статьи невысокий, это правда, но для публикации, как мне кажется, годится.

Причём тут цепочки? Эта секция описывает как он что-то делал с классами и методами, причём сами классы и методы не приведены, контекст практически не описан.

Это всё равно что я назову статью "Оптимизация Ява приложений", а содержание будет примерно таким

"в процессе анализа класса PublishingQueue я обнаружил, что в некоторых методах используется избыточная синхронизация. Я убрал её и всё заработало в 20 раз быстрее. Ещё в 10 раз удалось ускорить обработку путём наследования от класса ConcurrentHashMap и переписывания некоторых методов"

Ну и? Какая польза будет от этой статьи?

M>Я там бреда не увидел. "Цепочка" -- вполне устоявшийся термин в формальных языках. Хотя здесь, конечно, надо бы использовать "цепочка символов" или "строка символов".

И, кстати, у него "цепочка" — это строки подчинённой таблицы, если говорить в терминах БД.

Здравствуйте, avpavlov, Вы писали:

A>И, кстати, у него "цепочка" — это строки подчинённой таблицы, если говорить в терминах БД.

Ну значит мы не о той статье говорим. Я писал о второй статье, там для алгоритма кластеризации вычисляется мера близости цепочек как расстояние Левенштейна.

Здравствуйте, mefrill, Вы писали:

M>Здравствуйте, avpavlov, Вы писали:

A>>И, кстати, у него "цепочка" — это строки подчинённой таблицы, если говорить в терминах БД.

M>Ну значит мы не о той статье говорим. Я писал о второй статье, там для алгоритма кластеризации вычисляется мера близости цепочек как расстояние Левенштейна.

И я говорю про неё. Посмотри вводную секцию "Постановка задачи и структура исходных данных" — там есть картинка с объяснением, что такое "цепочка"

Здравствуйте, avpavlov, Вы писали:

A>И я говорю про неё. Посмотри вводную секцию "Постановка задачи и структура исходных данных" — там есть картинка с объяснением, что такое "цепочка"

И все-таки я не понял, что такое эта самая цепочка

. Есть "код цепочки", есть три поля в таблице, есть еще поля в другой таблице, но что такое цепочка нигде не сказано

Здравствуйте, avpavlov, Вы писали:

A>Про WEKA я не могу рассуждать, потому что не имею опыта работы, но статья выглядит как несвязанные куски "чего-то". Почитай (и попытайся понять о чём идёт речь!) в секции "Реализация меры близости для сравнения двух цепочек" — это же бред какой-то!

Прочитал этот раздел, он выглядит разумно.

Насколько я понял, большинство упомянутых классов являются стандартными для платформы и поэтому описаны не подробно. Там же описана какая-то проблема с новым классом, чем-то он не стандартен. Кажется, тем, что обычно работают с одиночными объектами, а тут с цепочками (чем бы цепочки не являлись).

Вполне возможно, что там многое не так, но мне не хватает знаний чтобы судить об этом уверенно.

А о том, что такое цепочка написано во введении:

Примером таких данных является цепочка событий или объектов, например, история посещения пользователем интернет-сайта, последовательность услуг, оказанных пациенту в медицинской организации, и пр.

---

Коллеги, простите, я не буду участвовать в дискуссии.

Последние три года я несколько дистанцировался от RSDN и тем более от журнала, мой всплеск активности носит временный характер и связан с тем, что я тут сам неожиданно написал статью, ну и заодно случайно заметил этот адский трэш.

Мне не всё нравится в журнале и сама идея кажется изжившей себя, но журнал делают люди, которых я уважаю, я стараюсь им по крайней мере не мешать, поэтому я не хотел бы тут эти вопросы обсуждать. А революцию я не поддерживаю за отсутствием позитивной программы

Единственное что могу сказать: если бы коммунити генерировало больше статей и активнее участвовало в обсуждении статей перед публикацией, возможно, проблемы со статьями бы ушли. Когда мы затевали журнал, мы довольно искренне надеялись на активность сообщества. Оказалось, то мы её переоценили, оказалось что мы и сами через несколько выпусков слегка сдулись, а потом сдулись уже вполне конкретно, и то, что журнал ещё существует, и на сайте ещё что-то публикуется, на 90% заслуга Влада и Миши, насколько я понимаю, на более-менее постоянной основе им сейчас не помогает никто.

Здравствуйте, Sharowarsheg, Вы писали:

SH>>Проблема в том, что такие статьи обычно написаны таким языком, что не специалисту трудно разобраться и найти концы. Автор употребляет какие-то слова по теме, уверенно составляет из них запутанные предложения и производит впечатление человека, который знает, что пишет.

S>Этого одного достаточно, чтобы не пропустить статью.

Тогда все наши статьи будут называться "Введение в ... для самых маленьких"

Понятно, что писать нужно по-человечески, а не по-научному. Но стандартная терминология для специалиста гораздо привычнее, понятнее и точнее, чем обтекаемые объяснения "на пальцах". И в статье сколько-нибудь продвинутого уровня она обязательно будет в количестве. Редактору действительно сложно отличить эти две ситуации. Можно, конечно, если провести много итераций общения с автором и попросить его в каждом случае объяснить понятным языком, но это долго, и это требует большой работы и от редактора и от автора.

Здравствуйте, SergH, Вы писали:

SH>Понятно, что писать нужно по-человечески, а не по-научному. Но стандартная терминология для специалиста гораздо привычнее, понятнее и точнее, чем обтекаемые объяснения "на пальцах". И в статье сколько-нибудь продвинутого уровня она обязательно будет в количестве. Редактору действительно сложно отличить эти две ситуации. Можно, конечно, если провести много итераций общения с автором и попросить его в каждом случае объяснить понятным языком, но это долго, и это требует большой работы и от редактора и от автора.

Я только что прочитал статью. Вот смотри написано

Система определения движущихся объектов является довольно востребованной, т.к. помогает облегчить задачу многим службам, например, авиадиспетчерам. Но, как и в любой системе, в системе определения движущихся объектов необходимо производить шифрование информации на пути от датчика до системы анализа полученных данных.
...
Необходимо разработать алгоритм шифрования данных для системы определения движущихся объектов.
...

Сфера деятельности современных алгоритмов четко разделена – асимметричные алгоритмы применяются в основном в сетевых протоколах, а симметричные применяется во всем остальном.

Представленный же здесь алгоритм, в связи со своей динамичностью, универсален и может применяться не только в системе обнаружения движущихся объектов, но и в любой другой.

Так вот, то, что жирным выделено — обычная бессмыслица, которая в глаза бросается. Всё остальное тоже, но менее выражено. Как только кто-то увидел что-то подобное, начинается "редакция рукописи не возвращает, не рецензирует, с авторами в дискуссию не вступает, и практикует чёрные списки".

Здравствуйте, Sharowarsheg, Вы писали:

S>Я только что прочитал статью.

Соболезную

S>Вот смотри написано

...

S>Так вот, то, что жирным выделено — обычная бессмыслица, которая в глаза бросается. Всё остальное тоже, но менее выражено.

Ты ещё на картинку с AES посмотри, которая там непонятно зачем

Причём очевидно, что она там непонятно зачем. По честному подписать её стоило бы "картинка для красоты и привлечения внимания"

Да, это плохой русский язык, обычный в подобных статьях. Стандартные формулировки, как стандартные обороты вежливости, неуклюжие часто избыточные. Учёные плохо умеют писать по-русски, копируют друг у друга плохие образцы, даже не пытаются думать о том, чтобы писать понятно. Это плохо, с этим можно бороться и объяснять, но сложно и энергозатратно.

Я бы настаивал на переписывании текста, даже если бы он был адекватен по сути. Но во-первых, я в это время был где-то в другом месте, во-вторых, это потому что у меня много времени и т.п. В-третьих это работает только если автор отвечает, т.к. переписывать без него это немного не то.

S>Как только кто-то увидел что-то подобное, начинается "редакция рукописи не возвращает, не рецензирует, с авторами в дискуссию не вступает, и практикует чёрные списки".

Это возможно только если статей много. Их мало. Когда-то выпускалось шесть номеров в год. Сейчас четыре и постоянное отставание на полгода. И я каждый раз удивляюсь, что номера ещё выходят.

Мой поинт был в том, что это всё не просто. Нет простого устраивающего всех решения.

A>>И я говорю про неё. Посмотри вводную секцию "Постановка задачи и структура исходных данных" — там есть картинка с объяснением, что такое "цепочка"

M>И все-таки я не понял, что такое эта самая цепочка

Ну потому что ещё одни кабинетные теоретики изобрели свою терминологию, и назвали строки подчтнённой таблиц "цепочкой"

Здравствуйте, avpavlov, Вы писали:

A>Ну потому что ещё одни кабинетные теоретики изобрели свою терминологию, и назвали строки подчтнённой таблиц "цепочкой"

Нет-нет, это термины из разных уровней.

Цепочка это логический уровень, это то, _что_ должно быть сделано. Цепочка событий, объектов и т.п. Это некий мета-объект, о котором идёт разговор в статье.
"Строки подчинённой таблицы" это уровень реализации. Это то, как цепочка воплощается в конкретной БД. Я бы ещё добавил "упорядоченные строки таблицы", т.к., насколько я понимаю в цепочке это должно быть важно.

Здравствуйте, SergH, Вы писали:

SH>Цепочка это логический уровень, это то, _что_ должно быть сделано. Цепочка событий, объектов и т.п. Это некий мета-объект, о котором идёт разговор в статье.
SH>"Строки подчинённой таблицы" это уровень реализации. Это то, как цепочка воплощается в конкретной БД. Я бы ещё добавил "упорядоченные строки таблицы", т.к., насколько я понимаю в цепочке это должно быть важно.

Осталось еще узнать, с какой целью проводится кластеризация этих "цепочек". Что они хотят понять, задавая близость отметок о посещении поликлиники на основе синтаксического подобия. Вероятно, найдут постоянных пациентов у конкретных врачей!?

	От:	avpavlov
	Дата:	29.04.12 11:58
	Оценка:

	От:	wildwind
	Дата:	29.04.12 12:23
	Оценка:

	От:	SergH
	Дата:	02.05.12 08:15
	Оценка:	1 (1)

	От:	avpavlov
	Дата:	02.05.12 09:10
	Оценка:

	От:	avpavlov
	Дата:	02.05.12 09:11
	Оценка:

	От:	mefrill
	Дата:	03.05.12 10:03
	Оценка: