ПОИСК который РАБОТАЕТ
От: Кодт Россия  
Дата: 26.09.02 08:00
Оценка: 18 (1)
Да не убьют меня коллеги из RSDN Team!

http://www.rsdn.ru/search
Нормально (отлично) работающая бета-версия поиска.
Лазьте все сюда
Перекуём баги на фичи!
Re: ПОИСК который РАБОТАЕТ
От: Андрей Россия  
Дата: 26.09.02 08:04
Оценка:
Здравствуйте Кодт, Вы писали:

skip

Да, действительно, работает куда лучше стандартного
Re: ПОИСК который РАБОТАЕТ
От: Алекс Россия http://wise-orm.com
Дата: 27.09.02 05:42
Оценка:
Здравствуйте Кодт, Вы писали:

К>Да не убьют меня коллеги из RSDN Team!


К>http://www.rsdn.ru/search

К>Нормально (отлично) работающая бета-версия поиска.
К>Лазьте все сюда

я бы хотел следующее, если ключевое слово встречается в названии топика, не выводить его сообщения как результат поиска. Это логично, потому что если топик так называется, то с большой вероятностью все его сообщения касаються данной темы. Поэтому лучше просто выводить ссылку на топик, а все его сообщения пропускать.
Re[2]: ПОИСК который РАБОТАЕТ
От: Алекс Россия http://wise-orm.com
Дата: 01.10.02 07:54
Оценка:
Здравствуйте Алекс, Вы писали:

А>Здравствуйте Кодт, Вы писали:


К>>Да не убьют меня коллеги из RSDN Team!


К>>http://www.rsdn.ru/search

К>>Нормально (отлично) работающая бета-версия поиска.
К>>Лазьте все сюда

А>я бы хотел следующее, если ключевое слово встречается в названии топика, не выводить его сообщения как результат поиска. Это логично, потому что если топик так называется, то с большой вероятностью все его сообщения касаються данной темы. Поэтому лучше просто выводить ссылку на топик, а все его сообщения пропускать.


все таки это надо сделать.
Вот, например, делаем поиск по "AddNew". Возвращается 74 записи из них почти все находятся в 3-4 топиках. Не проще ли выводить ссылки на эти топики, а не на почти каждое их сообщение.
Re[3]: ПОИСК который РАБОТАЕТ
От: Dima2  
Дата: 01.10.02 08:09
Оценка:
Здравствуйте Алекс, Вы писали:

А>все таки это надо сделать.

А>Вот, например, делаем поиск по "AddNew". Возвращается 74 записи из них почти все находятся в 3-4 топиках. Не проще ли выводить ссылки на эти топики, а не на почти каждое их сообщение.

Согласен, а то очень неудобно, или хотябы сортировка была по топику, а то один и тот же топик разбросан по всему поиску, и тяжело вспомнить смотрел этот топик или нет.
Re[4]: ПОИСК который РАБОТАЕТ
От: Kaa Украина http://blog.meta.ua/users/kaa/
Дата: 01.10.02 09:10
Оценка:
Здравствуйте Dima2, Вы писали:

D>Согласен, а то очень неудобно, или хотябы сортировка была по топику, а то один и тот же топик разбросан по всему поиску, и тяжело вспомнить смотрел этот топик или нет.


Ну, давайте пинать IT, чтоб он форумы полностью переписал. Есть желающие?

Проблема в реализации того, что вы просите, следующая. Есть 2 сообщения, характеризующиеся своими урлами. Вопрос: как определить, принадлижат ли они одному:
— топику;
— форуму;
— чему-то еще.

Если есть наметки, как это сделать из коммандной строки браузера (т.е. только манипуляцией урлами), то делитесь.

В текущей версии поиск позволяет:
— группировать сообщения по разделам сайта (унакальная начальная часть урла);
— сортировать выдачу по времени в обе стороны, по релевантности;
— искать с ограничением по времени.

Поиск не является частью системы форумов и не может использовать язык запросов и данные основного хранилища для реализации запрошенных сервисов. Для поиска документ является совершенно независимым существом, который может быть объединен с остальными только посредством группировки по части сайта. Никакой дополнительной информации о связи с другими сообщениями в базе, о принадлежности сообщения к форуму и т.д. не содержится, посему и обработана данная информация быть не может.

Более подробная информация о возможностях поискового движка доступна на сайте поддержки. Там выложена версия, которая несколько старее работающей на сайте, но во многом совпадающая по функциональности.

PS: Поиск для сайта RSDN.RU предоставлен в качестве готового продукта, и революционных доработок в ближайшее время не планируется.
Алексей Кирдин
Re[5]: Помощь индексатору SiteMeta
От: Кодт Россия  
Дата: 01.10.02 09:56
Оценка:
Здравствуйте Kaa, Вы писали:

Kaa>Ну, давайте пинать IT, чтоб он форумы полностью переписал. Есть желающие?


Kaa>Проблема в реализации того, что вы просите, следующая. Есть 2 сообщения, характеризующиеся своими урлами. Вопрос: как определить, принадлижат ли они одному:

Kaa>- топику;
Kaa>- форуму;
Kaa>- чему-то еще.

Kaa>Если есть наметки, как это сделать из коммандной строки браузера (т.е. только манипуляцией урлами), то делитесь.


Идея такая: отдавать для индексатора специально подготовленные документы.

(1) указывать в составе URL принадлежность ветке и форуму
http://www.rsdn.ru/Forum/Message.aspx?group=rsdn&rootmid=106262&mid=108123
Автор: Кодт
Дата: 26.09.02
(все равно все параметры кроме mid игнорируются)

(2) пихать эту информацию в тело документа
(2a) формировать иной .aspx : .../MessageIndexed.aspx?mid=108123
(2b) вставлять невидимый текст (а кстати, можно и видимый!) в Message.aspx
Форум "Обсуждение сайта" : "ПОИСК, который РАБОТАЕТ"
-----------------------------------------------------------------------------------------
Re[5]: Помощь индексатору SiteMeta    <msdn> <a> <\> <T> оценить [0][x][1][2][3] <@>  <*>
-----------------------------------------------------------------------------------------
Здравствуйте Kaa, Вы писали:

Kaa>Ну, давайте пинать IT, чтоб он форумы полностью переписал. Есть желающие?

(3) наконец, самый дубовый способ — это отдавать индексатору распечатку ветки (плоский режим) — естественно, указывая в качестве mid первое сообщение темы.
Перекуём баги на фичи!
Re[5]: ПОИСК который РАБОТАЕТ
От: IT Россия linq2db.com
Дата: 01.10.02 13:32
Оценка:
Здравствуйте Kaa, Вы писали:

D>>Согласен, а то очень неудобно, или хотябы сортировка была по топику, а то один и тот же топик разбросан по всему поиску, и тяжело вспомнить смотрел этот топик или нет.


Kaa>Ну, давайте пинать IT, чтоб он форумы полностью переписал. Есть желающие?


Я знаю, вы хотите моей смерти

Kaa>PS: Поиск для сайта RSDN.RU предоставлен в качестве готового продукта, и революционных доработок в ближайшее время не планируется.


Зато мы можем править asp-скрипт как хочется.

Я сейчас тебе выдаю ссылку на форум в виде http://www.rsdn.ru/forum/?mid=xxxx. Могу выдвать в виде http://www.rsdn.ru/forum/?gid=xx&tid=xxxx&mid=xxxx
где gid — id форума, tid — id темы.

Названия форума и темы можно будет потом в скрипте вытащить из базы.
Если нам не помогут, то мы тоже никого не пощадим.
Re[6]: Помощь индексатору SiteMeta
От: IT Россия linq2db.com
Дата: 01.10.02 13:38
Оценка:
Здравствуйте Кодт, Вы писали:

К>Идея такая: отдавать для индексатора специально подготовленные документы.


Сейчас так и делается.

К>(1) указывать в составе URL принадлежность ветке и форуму

К>http://www.rsdn.ru/Forum/Message.aspx?group=rsdn&amp;rootmid=106262&amp;mid=108123
Автор: Кодт
Дата: 26.09.02
(все равно все параметры кроме mid игнорируются)


Правильно. Тут только одна проблема. Тема может быть перепихнута в другой форум модерилкой, поэтому gid (group) может стать не актуальной.

К>(2) пихать эту информацию в тело документа


Как я понял индексатор может лихо работать с урлями, да и в случае чего в скрипте можно будет их как надо подсортировать, а в данном случае это не получится.

К>(3) наконец, самый дубовый способ — это отдавать индексатору распечатку ветки (плоский режим) — естественно, указывая в качестве mid первое сообщение темы.


Можно и так, но в данном случае ты будешь должен потом листать все сообщения темы пока не найдёшь нужное, а это не очень в деревянном режиме.
Если нам не помогут, то мы тоже никого не пощадим.
Re[7]: Помощь индексатору SiteMeta
От: Кодт Россия  
Дата: 01.10.02 14:00
Оценка:
Здравствуйте IT, Вы писали:

К>>(1) указывать в составе URL принадлежность ветке и форуму

К>>http://www.rsdn.ru/Forum/Message.aspx?group=rsdn&amp;tid=106262&amp;mid=108123
Автор: Kaa
Дата: 01.10.02
(все равно все параметры кроме mid игнорируются)


IT>Правильно. Тут только одна проблема. Тема может быть перепихнута в другой форум модерилкой, поэтому gid (group) может стать не актуальной.


Ну достаточно оставить tid.
www.rsdn.ru/forum/message.aspx?mid=108316&amp;tid=106262&amp;only=1
Автор: IT
Дата: 01.10.02

Тогда все, кроме убитых, мессаги, будут доступны.

К>>(3) наконец, самый дубовый способ — это отдавать индексатору распечатку ветки (плоский режим) — естественно, указывая в качестве mid первое сообщение темы.


IT>Можно и так, но в данном случае ты будешь должен потом листать все сообщения темы пока не найдёшь нужное, а это не очень в деревянном режиме.


А для этого есть анкоры. ( #108316 )

www.rsdn.ru/forum/message.aspx?mid=106262#108316
Автор: Кодт
Дата: 26.09.02

пролистает как раз до твоего письма.

Повторюсь — способ дубовый. Предлагался на тот случай, если первый вариант чем-то не проканает.

Поскольку индексатор умеет группировать по фрагментам URL'а, то можно остановиться на первом.

Кстати, может ли индексатор запоминать один документ
(www.rsdn.ru/forum/message.aspx?mid=...&tid=...)
а выдавать по запросу другой
(www.rsdn.ru/forum/default.aspx?mid=...&tid=...)
— у которого есть фреймы, один из которых переменный (msglist.aspx&gid=...), а второй — содержит документ (message.aspx?mid=...)?
То есть ему как бы предоставляется пара урлов, один из которых он читает, а второй отдает.

Некстати, default.aspx&tid=NNNNNN не находит темы с данным id-ом... Понятно, что это изыски, но все же было б неплохо...
Перекуём баги на фичи!
Re[7]: Помощь индексатору SiteMeta
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 01.10.02 14:00
Оценка:
Здравствуйте IT, Вы писали:

IT>Правильно. Тут только одна проблема. Тема может быть перепихнута в другой форум модерилкой, поэтому gid (group) может стать не актуальной.


Я так понимаю что индексатор передает список тем. А что мешает реорганизовать данные уже по результатам работы поисковика?
... << Янус 1.0 alpha 10 (developer build)>>
AVK Blog
Re[6]: Помощь индексатору
От: Kaa Украина http://blog.meta.ua/users/kaa/
Дата: 01.10.02 14:03
Оценка:
Здравствуйте Кодт, Вы писали:

Kaa>>Ну, давайте пинать IT, чтоб он форумы полностью переписал.


Я зря это написал и уже пожалел. Извиняюсь.

К>Идея такая: отдавать для индексатора специально подготовленные документы.


Это и так делается. То, что индексируется, совсем не похоже на то, что можно увидеть на сайте.

К>(1) указывать в составе URL принадлежность ветке и форуму


Принадлежность ветке — еще куда ни шло, а вот принадлежность форуму — вещь самая что ни на есть бесполезная. Можете сами догадаться почему.

Именно по этим соображениям не получится организовать группировку по форумам. А если и получится, то поиск может приходить в правильное состояние очень долго.

При реализации поиска мы исходили из того, что сообщения должны становиться доступными к поиску как можно скорее. Отсюда мы пришли к теперешней его организации.

Если индексировать плоский (и плоский) режим, то, т.к. документы могут меняться, их надо еще и обновлять. Постоянно. Заполнение базы при текущем количестве сообщений занимает 2 дня. Обновление — тот же срок, но без добавления новых документов. А добавление новых документов без апдэйта базы сейчас выставлено в 10 минут. Это означает, что новые сообщения попадают в базу в течение 10-15 минут после их опубликования.

Почувствуйте разницу.

При таких сомнительных преимуществах как НЕ просмотр топиков, которые пользователь уже видел, преимущества подокументного (по сообщениям) индексирования перекрывают любые аргументы по другим режимам.

Что же касается веток с большим количеством сообщений, то могу посоветовать задавать вопросы поконкретнее.

Так-что, непредусмотренных уже сейчас группировок и сортировок не будет в обозримом будущем (также как и поиска по избранным сообщениям (ответ в соседнюю ветку) по той-же причине — невозможности фильтрации сообщений).

А собственный SQL писать нет никакой (в т.ч. экономической) целесообразности, возможности и, как следствие, желания.

Когда я писал про урлы, я имел ввиду способ выпасания принадлежности урла с такой грамматикой без ее изменения:
<site>/<dir>?<param>=<number>
где изменению подлежит только <number>. (Это — теперешняя организация сайта). Именно к этому относится мое самое верхнее высказывание.
Алексей Кирдин
Re[6]: ПОИСК который РАБОТАЕТ
От: Kaa Украина http://blog.meta.ua/users/kaa/
Дата: 01.10.02 14:27
Оценка:
Здравствуйте IT, Вы писали:

D>>>Согласен, а то очень неудобно, или хотябы сортировка была по топику, а то один и тот же топик разбросан по всему поиску, и тяжело вспомнить смотрел этот топик или нет.


Вот ключевой вопрос. Все, что последовало после — не поможет в его решении.
Я считаю, что то, что написано в этом вопросе — не проблема, вернее, что такой проблемы нет. Вы говорите, что я ничего делать не хочу и отмазываюсь. Пусть будет так. Моя позиция по данному вопросу: правильный вопрос — 80% правильного ответа. Задание правильного вопроса снимет эту проблему. Правильный вопрос характеризуется попаданием правильных на него ответов в первые 3 страницы результатов (дальше пользователи не ходят обычно). А память на заголовок сообщения должна найтись у любого.

IT>Я знаю, вы хотите моей смерти


Нет, мы желаем тебе немеряно здоровья и долголетия.

IT>Зато мы можем править asp-скрипт как хочется.

Для этого надо дожить до COM-объекта.

Все предложенные варианты пока никак не помогают в решении вопроса, вынесенного вверху.

Давай наши планы обсуждать не здесь. То, что технологически можно организовать, мы (я) организуем и так.

Ближайшее переиндексирование, намеченное на выходные, будет содержать фикс по букве "ё" (только для тебя, Игорь ), и к нему хочется тайтлы в ресурсах, книгах и остальных местах, где их нет
Алексей Кирдин
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.