HTML --> plain text
От: Replicator  
Дата: 14.02.06 17:17
Оценка:
никто не встречался с задачей сконвертировать HTML в plain text.
ищется подходящий код на Java или JavaScript.
нужна реализация адекватно обрабатывающая простые таблицы, заголовки итд. а не просто выбрасывающая все тэги.
Re: HTML --> plain text
От: York Россия  
Дата: 16.02.06 10:29
Оценка:
Здравствуйте, Replicator, Вы писали:

R>никто не встречался с задачей сконвертировать HTML в plain text.

R>ищется подходящий код на Java или JavaScript.
R>нужна реализация адекватно обрабатывающая простые таблицы, заголовки итд. а не просто выбрасывающая все тэги.

Это зависит от того какая задача стоит. Когда я делал поиск по сайту, я использовал такое решение: HTML to text
Автор: York
Дата: 23.12.04
, т.к. мне просто надо было вытащить текст, проигнорировав всё остальное. Если же надо отформатировать HTML в тестовом виде, то всё равно думаю можно использовать Tidy — получить на выходе DOM документ соответствующий XHTML и потом обрабатывать его как требуется. А не возиться с тем, что может быть написано в исходном HTML без соблюдения всяких стандартов, но обрабатываемое браузерами, т.к. работа у них такая.
Пищальников Юрий
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.