Re[2]: Как лучше очистить текст от html тегов
От: Alex Leshkin  
Дата: 15.05.07 05:30
Оценка:
Здравствуйте, Zuzzuk, Вы писали:

L>>Подскажите как лучше очистить текст от html тегов. Может есть какие готовые решения? Текст нужно очистить для последующей индексации для полнотекстового поиска.


Z>Имхо разумно сделать имплементацию например SAX-парсера XML, который будет реагировать только на text childs у тэгов и сливать их в один сплошной текст.

Ну это разумно только для xhtml.
А универсальный способ — это регулярные выражения. Но надо так же учесть наличие в html текста, который не содержит информации. Это скрипты и стили в странице, комментарии.
Хотя про скрипты однозначно сказать, что они не содержат смысловой информации, нельзя.
... << RSDN@Home 1.1.4 stable SR1 rev. 568>>
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.