Как лучше очистить текст от html тегов
От: lexius www.acula.org
Дата: 14.05.07 19:24
Оценка:
Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.
************
www.acula.org
Re: Как лучше очистить текст от html тегов
От: Zuzzuk Россия  
Дата: 15.05.07 04:48
Оценка:
Здравствуйте, lexius, Вы писали:

L>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.


Имхо разумно сделать имплементацию например SAX-парсера XML, который будет реагировать только на text childs у тэгов и сливать их в один сплошной текст.
Re[2]: Как лучше очистить текст от html тегов
От: Alex Leshkin  
Дата: 15.05.07 05:30
Оценка:
Здравствуйте, Zuzzuk, Вы писали:

L>>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.


Z>Имхо разумно сделать имплементацию например SAX-парсера XML, который будет реагировать только на text childs у тэгов и сливать их в один сплошной текст.

Ну это разумно только для xhtml.
А универсальный способ — это регулярные выражения. Но надо так же учесть наличие в html текста, который не содержит информации. Это скрипты и стили в странице, комментарии.
Хотя про скрипты однозначно сказать, что они не содержат смысловой информации, нельзя.
... << RSDN@Home 1.1.4 stable SR1 rev. 568>>
Re: Как лучше очистить текст от html тегов
От: LeonidV Ниоткуда http://vygovskiy.com
Дата: 15.05.07 07:57
Оценка:
Здравствуйте, lexius, Вы писали:

L>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.

С помощью регулярных выражения найти все <и-то-что-между-ними> и удалить.
Все сказанное по поводу смыслового наполнения верно. И еще статья:
http://javaboutique.internet.com/tutorials/HTMLParser/
http://jvmmemory.com — простой способ настройки JVM
Re: Как лучше очистить текст от html тегов
От: berdachuk Беларусь http://bolsheprodag.ru/prodvizhenie-sajtov/prodvizhenie-sajta-skolko-stoit
Дата: 21.05.07 17:59
Оценка:
Здравствуйте, lexius, Вы писали:

L>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.


Есть куча готовых машин поиска (search engine). Зачем самому заниматься чисткой документов.
В составе большинства библиотек есть понятие абстрактного документа, который извлекается
из различных форматов например (html, rtf, pdf и т.д.)

На вскидку советую глянуть
lucene
docco
nutch
regain


Сергей Бердачук
Re[2]: Как лучше очистить текст от html тегов
От: lexius www.acula.org
Дата: 21.05.07 18:10
Оценка:
Здравствуйте, berdachuk, Вы писали:

B>Здравствуйте, lexius, Вы писали:


L>>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.


B>Есть куча готовых машин поиска (search engine). Зачем самому заниматься чисткой документов.

B>В составе большинства библиотек есть понятие абстрактного документа, который извлекается
B>из различных форматов например (html, rtf, pdf и т.д.)

B>На вскидку советую глянуть

B>lucene
B>docco
B>nutch
B>regain


B>Сергей Бердачук


С проблемой я разобрался уже.
Но по посту — lucene только индексирует, ему нужно давать palin text, если не хочешь чтобы он проиндексировал и теги.
Nutch — это совсем другое решение (основано на lucene).

Я воспользовался готовым html парсером для чистки текста от тегов.
************
www.acula.org
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.