Re[4]: Документно-ориентированнные с-мы

Здравствуйте, Зверёк Харьковский, Вы писали:

ЗХ>тут, наверное, стану спорить. коль скоро мы храним и оригинал документа и его копию, оптимизированную для поиска (что, ИМХО, правильно), то оптимизировать для поиска нужно конкретно и хитро, а не просто разбить документ на слова. По этому поводу есть горы всяческих теорий, начиная от каких-то простейших словарей (типа "слово"-"в каких документах встречается") заканчивая семантическими сетями и проч.

Документы бьются не на слова, а на абзацы

Связано это с некоторыми особенностями с-мы, например при контекстном поиске нужно показывать АБЗАЦ в котором найдено слово.

О "всяческих теориях" — я и собираюсь использовать одну из них, а именно механизм MS Indexing Services

Зачем изобретать велосипед ? Пусть часть работы за меня выполняет служба, написанная людьми, которые рзбираются в поиске лучше.

ЗХ>Едем дальше. По твоему начальному сообщению не вполне понятно следующее — а) должны ли докУменты ка-то организовываться (в разделы, подразделы, и пр.) или просто храниться все скопом? б) должен ли поиск искать по текстам всех документов за раз? (ежли нет, то в предыдущем абзаце я чушь написал).
ЗХ>Дальше. Документы, выходит, имеют подозрительно иерархическую структуру (документ->раздел->абзац). Не стоит ли тут задуматься об XML

?
ЗХ>В общем, задачу хранения контента, ИМХО, не стоит решать в лоб, хранением здоровенных кусков текста в базе

Документы организовываются в группы, но об этом я собирался поговорить позже. Контекстный поиск — всегда по всем.

По поводу XML — какую я получаю выгоду кроме осознания своей крутости от использования моднейшей технологии ?

Предположим — есть конкретные задачи
1) Поиск по документу слова, показывать абзац в котором слово найдено, должны быть доступны команды Next, Previous.
2) Показать структуру документа
Чем мне поможет XML ? Лёгкость программирования ? Нет. Скорость работы ? Смешно просто.
Я не вижу не одной выгоды от его использования кроме вышеупомянутой.

EF>>Также необходимо хранить оригинал документа, с которым никаких операций проводить нельзя кроме как скачать его на комп. пользователя. Поначалу я планировал написать для этой цели своё хранилище, потом отказался от этой идеи и собираюсь оригиналы также держать в базе.
EF>>Интересно насколько это оправдано ?

ЗХ>а who его знает... не могу назвать себя большим специалистом по базам данных (вот тут в меня полетять гнилые помидоры...). в моем случае, поскольку документы поступают в различных форматах, я предпочел хранить файлы на диске, зажатые zip'ом

А как ты решаешь проблемы транзакционности, бекапа ?

EF>>По второму пункту, по атрибутам, я думаю позднее

ЗХ>ок.

	От:	EugenF
	Дата:	22.09.03 14:21
	Оценка: