Re[2]: Есть база терминов. Как в тексте документа найти вхождения всех терминов?
От: VetalB  
Дата: 23.05.12 18:31
Оценка:
Здравствуйте, мыщъх, Вы писали:

VB>>Я уверен, что задача решаема.

М>конечно, решаема. морфология это вообще ерунда по сравнению с тем, что вас ждет, когда вы столкнетесь с закисью азота, которую нужно выдать по запросу веселящий газ. или от вас такого не требуют? вы упомянули хлорид натрия, известный как "поваренная соль".

Нет, такого не требуют. Нужно искать только по словоформам терминов.


М>морфология может работать и без словаря, но с поправкой на ветер. перекись и диперикись ацетона -- это два разных вещества. тут главное, чтобы машина не сказала, что самые популярные термины это мыть и какать. кстати, не шутка. например, "лишая" — это от слова "лишать" (глагол) или от слова "лишай" (существительное)? как здорово будет если мы ищем документы на медицинскую тему, а нам выдают что-то совершенно левое, причем в огромных количествах. причем, таких "вредных" терминов слишком много, чтобы от них отмахиваться.


Ну, у нас преобладающие большинство терминов достаточно специфические. Поэтому если и будет небольшой процент неправильно проставленных ссылок, это не страшно. Тем более, что планируется модератор, который будет просматривать в том числе все ссылки и заменять некорректно проставленные.


VB>> Ведь гугл ищет же комбинации слов с учетом морфологии.

М>вы когда родились? когда гугл только появился он на русском искал без учета. да и по английски выдавал в основном точное соответствие.

Больше 30 лет назад Ну, сейчас же уже ищет с морфологией, значит, есть готовые библиотеки, и их можно и нужно использовать


VB>>Вопрос точности тоже не критичный. Допускается пропуск некоторых слов, которые могли бы быть ссылкой. 80% терминов ссылками — это отличный результат.

VB>>Вобщем, подскажите, пожалуйста, как правильно разработать такое решение?
М>как вы сами сказали -- 80% терминов можно найти и так. а вот что делать с остальными...
"Так" как раз не получится. Так как большинство терминов в документах находятся не в именительном падеже. И составных терминов (из нескольких слов) почти половина.
Поэтому и вопрос — как построить алгоритм и какие технологии использвать? Идти по всем 100 000 терминам и искать вхождение в документ для каждого? Какие технологии использовать тогда для поиска с учетом морфологии? И не слишком ли — цикл по 100 000 записям из базы — может, можно придумать решения полегче?
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.