Новые подходы к классификации.
От: Зверёк Харьковский  
Дата: 22.09.05 04:00
Оценка: 71 (2)
В последнее время начал замечать "моду" на категоризацию всего и вся при помощи набора тегов вместо иерархических категорий.
Моду сию считаю правильной.
Недавно нашел хорошее эссе Клея Ширки (это такой умный мужик):
Онтологии переоценены (англ.)
Понравилось.


Для объективности — существует вот такой ответ:
Клей Ширки переоценен (англ.)
Откровенно говоря, я его не понял. Возможно, сказалось не слишком хорошее знание английского (хотя мне казалось, что читаю я уже свободно).
FAQ — це мiй ай-кью!
Re: Новые подходы к классификации.
От: Sinclair Россия https://github.com/evilguest/
Дата: 22.09.05 05:33
Оценка: 40 (3)
Здравствуйте, Зверёк Харьковский, Вы писали:
ЗХ>Для объективности — существует вот такой ответ:
ЗХ>Клей Ширки переоценен (англ.)
ЗХ>Откровенно говоря, я его не понял. Возможно, сказалось не слишком хорошее знание английского (хотя мне казалось, что читаю я уже свободно).
Просто он изъясняется не очень внятно (в отличие от Елея). Основная идея: "Клей красиво говорит, но плохо обосновывает". Критика относится в основном не к идеям Ширки, а к его аргументации. Типа — "тут неудачный пример, здесь неясно, с чего он это взял, тут он делает вид, что он первооткрыватель, а оно ужо было известно" и т.п.

Мерхольц пытается спасти хотя бы концепцию тезауруса:

If all I'm doing is trying to find people who tag things the way I do, my exposure to the world of information is going to be awfully awfully constrained. If I'm a scientist, and I tag an article "bird flu," well, yes, I might find all the other articles labelled "bird flu," but I won't find any labelled "avian flu." In this case, a thesaurus (well, a synonym ring, but no mind) will increase the quality of the signal. And, contrary to Clay's coda in that claim, you can utilize thesauri and not believe there is one right way to organize things. In fact, a strong, robust thesaurus works PRECISELY BECAUSE there is not one right way to organize things.

Имхо, он глубоко неправ. Самое главное в тезисах Ширки, имхо, — преимущество открытых систем перед закрытыми. Миллион неквалифицированных таггеров выдают больше полезной информации, чем сотня дорогостоящих онтологов. Ширки пишет, что доказательство этого утверждения пока что невозможно — потому, что критическая масса тагов нигде не накоплена. Тем не менее, я согласен с этим его предсказанием. Попытки Мерхольтца оправдать тезаурусы спотыкаются о вопрос о наличии и поддержке этих тезаурусов. Strong и Robust тезаурус очень дорог. Особенно с учетом временного фактора. В то же время, таги позволяют строить тезаурус автоматически. Он тут жалуется на то, что попытка ученого найти информацию по "avian flu" (птичий грипп) обломится потому, что много людей используют вместо avian flu другие термины. Ок, наш онтолог был в отпуске; поэтому термин "птичий грипп" не был добавлен в тезаурус. Таггинг позволяет системе в ответ на запрос сказать что-то типа: "avian flu" часто перекрывается с "bird flu". Хотите получить список документов по "bird flu"?
Я могу попросить у системы тезаурус ентри для "avian flu" и она даст мне статистически точную табличку с перекрытием. Качество этой таблички будет неуклонно нарастать, с ростом использования тагов.
Более того, если учесть дату тага, то я смогу (в будущем) запрашивать у системы тезаурус на определенный период времени! Например, cell в 90х будет идти рядом с mobile, хотя в 80х вы не найдете между ними ничего общего. И все это — бесплатно! Попытка добавить измерение времени к "статическому" тезаурусу будет стоить слишком дорого.
Таким образом, идея тезауруса не противопоставлена таггингу. Наоборот — таггинг дает нам тезаурус, о котором можно было только мечтать — релевантный, честный, не подверженный ошибкам (кто из нас не смеялся над некоторыми переводами от Lingvo? Лингво составляют конкретные люди, которые запросто могут переоценить частоту словоупотребления).


Ширки также упоминает о том, что я могу улучшать отношение сигнал/шум путем сужения группы авторов, таги которых для меня релевантны. Я слабо себе представляю, как бы это было можно сделать. Как определить круг людей, которые используют схожую со мной терминологию? Ясно, что задавать их вручную — бессмысленно.

Кстати, Мерхольтц критикует и это — саму постановку вопроса "Is anyone tagging it the way I do?" :

If all I'm doing is trying to find people who tag things the way I do, my exposure to the world of information is going to be awfully awfully constrained.

Ок, ладно. Мерхольтц как бы намекает на то, что существует единый "правильный" способ тагать что-то. На мой взгляд, единственное отличие "правильного" способа от "неправильного" (в его понимании) — в том, что "правильный" способ был утвержден ГОСТ/ANSI/ECMA/ISO/etc. Прекрасно. Даже в таком случае открытый таггинг ничуть не хуже. Достаточно ограничить группу таггеров для поиска тагов списком ГОСТ/ANSI/ECMA/ISO.

Так что, имхо, возражения слабоваты для рассмотрения. Да, Ширки категоричен. Но это никак не уменьшает справедливости его утверждений.
... << RSDN@Home 1.1.4 stable rev. 510>>
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[2]: Новые подходы к классификации.
От: Mamut Швеция http://dmitriid.com
Дата: 22.09.05 07:18
Оценка:
S>Ок, ладно. Мерхольтц как бы намекает на то, что существует единый "правильный" способ тагать что-то. На мой взгляд, единственное отличие "правильного" способа от "неправильного" (в его понимании) — в том, что "правильный" способ был утвержден ГОСТ/ANSI/ECMA/ISO/etc. Прекрасно. Даже в таком случае открытый таггинг ничуть не хуже. Достаточно ограничить группу таггеров для поиска тагов списком ГОСТ/ANSI/ECMA/ISO.

Кстати, Мерхольц все же привел пример "категоризированного таггинга" (second-order categorization, LOC's Subject Headings) и привел в качестве примера вот эту книгу. То есть, найти бы золотую середину...


dmitriid.comGitHubLinkedIn
Re[3]: Новые подходы к классификации.
От: Sinclair Россия https://github.com/evilguest/
Дата: 22.09.05 09:48
Оценка:
Здравствуйте, Mamut, Вы писали:

M>Кстати, Мерхольц все же привел пример "категоризированного таггинга" (second-order categorization, LOC's Subject Headings) и привел в качестве примера вот эту книгу. То есть, найти бы золотую середину...

В смысле? Я так понял, что Мерхольц всего лишь привел пример таггинга с фиксированным количеством тагов, причем таггинг одним человеком. Да, это доказывает, что таггинг работает. Но его недостаток — именно в том, что он закрытый.
... << RSDN@Home 1.1.4 stable rev. 510>>
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[4]: Новые подходы к классификации.
От: Mamut Швеция http://dmitriid.com
Дата: 22.09.05 12:52
Оценка: :))
M>>Кстати, Мерхольц все же привел пример "категоризированного таггинга" (second-order categorization, LOC's Subject Headings) и привел в качестве примера вот эту книгу. То есть, найти бы золотую середину...
S>В смысле? Я так понял, что Мерхольц всего лишь привел пример таггинга с фиксированным количеством тагов, причем таггинг одним человеком. Да, это доказывает, что таггинг работает. Но его недостаток — именно в том, что он закрытый.

Не, я о том, что таггинг все равно надо бы ограничивать. А то от всяких флэш-мобов не отмахаешься. Например, акцию о загнании ссылок на правительство в категорию "жестокое порно" Но при этом найти бы золотую середину, ну или хотя бы нечто, похожее на LOC


dmitriid.comGitHubLinkedIn
Re[5]: Новые подходы к классификации.
От: Sinclair Россия https://github.com/evilguest/
Дата: 23.09.05 04:22
Оценка:
Здравствуйте, Mamut, Вы писали:

M>>>Кстати, Мерхольц все же привел пример "категоризированного таггинга" (second-order categorization, LOC's Subject Headings) и привел в качестве примера вот эту книгу. То есть, найти бы золотую середину...

S>>В смысле? Я так понял, что Мерхольц всего лишь привел пример таггинга с фиксированным количеством тагов, причем таггинг одним человеком. Да, это доказывает, что таггинг работает. Но его недостаток — именно в том, что он закрытый.

M>Не, я о том, что таггинг все равно надо бы ограничивать. А то от всяких флэш-мобов не отмахаешься. Например, акцию о загнании ссылок на правительство в категорию "жестокое порно" Но при этом найти бы золотую середину, ну или хотя бы нечто, похожее на LOC

Ну, вопрос конечно интересный.
Но к нему, имхо, есть решение:
1. Для того, чтобы bias был достаточным, потребуется весьма значительное количество народу. А вообще, если сайт правительства 50% народа пометило как "порнография", то может им дизайнера сменить?
2. Те, кто не согласен, смогут отфильтровать отморозков
Как я уже писал, готового рецепта пока не видно. Но по крайней мере можно разрешить правила типа игнорировать таги от тех, кто пометил rsdn.ru как "отстой". Естественно, на пользовательском уровне. Тогда влияние всяких флешмобов будет минимально.
... << RSDN@Home 1.1.4 stable rev. 510>>
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.