Есть куски html-кода, нужно приблизить их к плейнтексту: убрать дивы, спаны (и прочие еретические теги), ссылки на стили и жаваскрипты. Допустимо — полное превращение в плейнтекст.
Есть ли что-то готовое для этого?
Вроде в составе yaws и mochiweb есть html-парсеры, но что-то документация по ним не гуглится. Что лучше использовать?
Здравствуйте, Mr.Cat, Вы писали:
MC>Есть куски html-кода, нужно приблизить их к плейнтексту: убрать дивы, спаны (и прочие еретические теги), ссылки на стили и жаваскрипты. Допустимо — полное превращение в плейнтекст.
MC>Есть ли что-то готовое для этого?
MC>Вроде в составе yaws и mochiweb есть html-парсеры, но что-то документация по ним не гуглится. Что лучше использовать?
Думаю у mochiweb лучше html парсер и работать с ним удобнее. Документация в исходниках, можно сгенерить ее в html.
Вот кстати человек описывает как можно использовать XPath в связке с mochiweb_html —
Fun With Mochiweb’s Html Parser And Xpath.
Кроме парсера Yaws есть еще xmerl в поставке Erlang, но он больше для XHTML подходит.
Ну и Joe Armstrong свою библиотеку для обработки HTML написал —
www_tools
--
Mikl