Здравствуйте, Зверёк Харьковский, Вы писали:
ЗХ>тут, наверное, стану спорить. коль скоро мы храним и оригинал документа и его копию, оптимизированную для поиска (что, ИМХО, правильно), то оптимизировать для поиска нужно конкретно и хитро, а не просто разбить документ на слова. По этому поводу есть горы всяческих теорий, начиная от каких-то простейших словарей (типа "слово"-"в каких документах встречается") заканчивая семантическими сетями и проч.
Документы бьются не на слова, а на абзацы

Связано это с некоторыми особенностями с-мы, например при контекстном поиске нужно показывать АБЗАЦ в котором найдено слово.
О "всяческих теориях" — я и собираюсь использовать одну из них, а именно механизм MS Indexing Services

Зачем изобретать велосипед ? Пусть часть работы за меня выполняет служба, написанная людьми, которые рзбираются в поиске лучше.
ЗХ>Едем дальше. По твоему начальному сообщению не вполне понятно следующее — а) должны ли докУменты ка-то организовываться (в разделы, подразделы, и пр.) или просто храниться все скопом? б) должен ли поиск искать по текстам всех документов за раз? (ежли нет, то в предыдущем абзаце я чушь написал).
ЗХ>Дальше. Документы, выходит, имеют подозрительно иерархическую структуру (документ->раздел->абзац). Не стоит ли тут задуматься об XML
?
ЗХ>В общем, задачу хранения контента, ИМХО, не стоит решать в лоб, хранением здоровенных кусков текста в базе
Документы организовываются в группы, но об этом я собирался поговорить позже. Контекстный поиск — всегда по всем.
По поводу XML — какую я получаю выгоду кроме осознания своей крутости от использования моднейшей технологии ?

Предположим — есть конкретные задачи
1) Поиск по документу слова, показывать абзац в котором слово найдено, должны быть доступны команды Next, Previous.
2) Показать структуру документа
Чем мне поможет XML ? Лёгкость программирования ? Нет. Скорость работы ? Смешно просто.
Я не вижу не одной выгоды от его использования кроме вышеупомянутой.
EF>>Также необходимо хранить оригинал документа, с которым никаких операций проводить нельзя кроме как скачать его на комп. пользователя. Поначалу я планировал написать для этой цели своё хранилище, потом отказался от этой идеи и собираюсь оригиналы также держать в базе.
EF>>Интересно насколько это оправдано ?
ЗХ>а who его знает... не могу назвать себя большим специалистом по базам данных (вот тут в меня полетять гнилые помидоры...). в моем случае, поскольку документы поступают в различных форматах, я предпочел хранить файлы на диске, зажатые zip'ом
А как ты решаешь проблемы транзакционности, бекапа ?
EF>>По второму пункту, по атрибутам, я думаю позднее
ЗХ>ок.