Как лучше очистить текст от html тегов - Java

Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.

Здравствуйте, lexius, Вы писали:

L>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.

Имхо разумно сделать имплементацию например SAX-парсера XML, который будет реагировать только на text childs у тэгов и сливать их в один сплошной текст.

Здравствуйте, Zuzzuk, Вы писали:

L>>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.

Z>Имхо разумно сделать имплементацию например SAX-парсера XML, который будет реагировать только на text childs у тэгов и сливать их в один сплошной текст.
Ну это разумно только для xhtml.
А универсальный способ — это регулярные выражения. Но надо так же учесть наличие в html текста, который не содержит информации. Это скрипты и стили в странице, комментарии.
Хотя про скрипты однозначно сказать, что они не содержат смысловой информации, нельзя.

... << RSDN@Home 1.1.4 stable SR1 rev. 568>>

Здравствуйте, lexius, Вы писали:

L>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.
С помощью регулярных выражения найти все <и-то-что-между-ними> и удалить.
Все сказанное по поводу смыслового наполнения верно. И еще статья:
http://javaboutique.internet.com/tutorials/HTMLParser/

Здравствуйте, lexius, Вы писали:

L>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.

Есть куча готовых машин поиска (search engine). Зачем самому заниматься чисткой документов.
В составе большинства библиотек есть понятие абстрактного документа, который извлекается
из различных форматов например (html, rtf, pdf и т.д.)

На вскидку советую глянуть
lucene
docco
nutch
regain

Сергей Бердачук

Здравствуйте, berdachuk, Вы писали:

B>Здравствуйте, lexius, Вы писали:

L>>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.

B>Есть куча готовых машин поиска (search engine). Зачем самому заниматься чисткой документов.
B>В составе большинства библиотек есть понятие абстрактного документа, который извлекается
B>из различных форматов например (html, rtf, pdf и т.д.)

B>На вскидку советую глянуть
B>lucene
B>docco
B>nutch
B>regain

B>Сергей Бердачук

С проблемой я разобрался уже.
Но по посту — lucene только индексирует, ему нужно давать palin text, если не хочешь чтобы он проиндексировал и теги.
Nutch — это совсем другое решение (основано на lucene).

Я воспользовался готовым html парсером для чистки текста от тегов.

От:	lexius	www.acula.org
Дата:	14.05.07 19:24
Оценка:

	От:	Zuzzuk
	Дата:	15.05.07 04:48
	Оценка:

	От:	Alex Leshkin
	Дата:	15.05.07 05:30
	Оценка:

От:	LeonidV	http://vygovskiy.com
Дата:	15.05.07 07:57
Оценка:

От:	berdachuk	http://bolsheprodag.ru/prodvizhenie-sajtov/prodvizhenie-sajta-skolko-stoit
Дата:	21.05.07 17:59
Оценка: