никто не встречался с задачей сконвертировать HTML в plain text.
ищется подходящий код на Java или JavaScript.
нужна реализация адекватно обрабатывающая простые таблицы, заголовки итд. а не просто выбрасывающая все тэги.
Здравствуйте, Replicator, Вы писали:
R>никто не встречался с задачей сконвертировать HTML в plain text.
R>ищется подходящий код на Java или JavaScript.
R>нужна реализация адекватно обрабатывающая простые таблицы, заголовки итд. а не просто выбрасывающая все тэги.
Это зависит от того какая задача стоит. Когда я делал поиск по сайту, я использовал такое решение:
HTML to textАвтор: York
Дата: 23.12.04
, т.к. мне просто надо было вытащить текст, проигнорировав всё остальное. Если же надо отформатировать HTML в тестовом виде, то всё равно думаю можно использовать Tidy — получить на выходе DOM документ соответствующий XHTML и потом обрабатывать его как требуется. А не возиться с тем, что может быть написано в исходном HTML без соблюдения всяких стандартов, но обрабатываемое браузерами, т.к. работа у них такая.