Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.
Здравствуйте, Zuzzuk, Вы писали:
L>>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.
Z>Имхо разумно сделать имплементацию например SAX-парсера XML, который будет реагировать только на text childs у тэгов и сливать их в один сплошной текст.
Ну это разумно только для xhtml.
А универсальный способ — это регулярные выражения. Но надо так же учесть наличие в html текста, который не содержит информации. Это скрипты и стили в странице, комментарии.
Хотя про скрипты однозначно сказать, что они не содержат смысловой информации, нельзя.
... << RSDN@Home 1.1.4 stable SR1 rev. 568>>
Здравствуйте, lexius, Вы писали:
L>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.
С помощью регулярных выражения найти все <и-то-что-между-ними> и удалить.
Все сказанное по поводу смыслового наполнения верно. И еще статья:
http://javaboutique.internet.com/tutorials/HTMLParser/
Здравствуйте, lexius, Вы писали:
L>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.
Есть куча готовых машин поиска (search engine). Зачем самому заниматься чисткой документов.
В составе большинства библиотек есть понятие абстрактного документа, который извлекается
из различных форматов например (html, rtf, pdf и т.д.)
На вскидку советую глянуть
lucene
docco
nutch
regain
Сергей Бердачук
Здравствуйте, berdachuk, Вы писали:
B>Здравствуйте, lexius, Вы писали:
L>>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.
B>Есть куча готовых машин поиска (search engine). Зачем самому заниматься чисткой документов.
B>В составе большинства библиотек есть понятие абстрактного документа, который извлекается
B>из различных форматов например (html, rtf, pdf и т.д.)
B>На вскидку советую глянуть
B>lucene
B>docco
B>nutch
B>regain
B>Сергей Бердачук
С проблемой я разобрался уже.
Но по посту — lucene только индексирует, ему нужно давать palin text, если не хочешь чтобы он проиндексировал и теги.
Nutch — это совсем другое решение (основано на lucene).
Я воспользовался готовым html парсером для чистки текста от тегов.