[Erlang]Работа с html
От: Mr.Cat  
Дата: 05.07.09 19:28
Оценка:
Есть куски html-кода, нужно приблизить их к плейнтексту: убрать дивы, спаны (и прочие еретические теги), ссылки на стили и жаваскрипты. Допустимо — полное превращение в плейнтекст.
Есть ли что-то готовое для этого?
Вроде в составе yaws и mochiweb есть html-парсеры, но что-то документация по ним не гуглится. Что лучше использовать?
Re: [Erlang]Работа с html
От: Mikl Kurkov Россия  
Дата: 06.07.09 09:21
Оценка: 31 (2)
Здравствуйте, Mr.Cat, Вы писали:

MC>Есть куски html-кода, нужно приблизить их к плейнтексту: убрать дивы, спаны (и прочие еретические теги), ссылки на стили и жаваскрипты. Допустимо — полное превращение в плейнтекст.

MC>Есть ли что-то готовое для этого?
MC>Вроде в составе yaws и mochiweb есть html-парсеры, но что-то документация по ним не гуглится. Что лучше использовать?

Думаю у mochiweb лучше html парсер и работать с ним удобнее. Документация в исходниках, можно сгенерить ее в html.
Вот кстати человек описывает как можно использовать XPath в связке с mochiweb_html — Fun With Mochiweb’s Html Parser And Xpath.

Кроме парсера Yaws есть еще xmerl в поставке Erlang, но он больше для XHTML подходит.
Ну и Joe Armstrong свою библиотеку для обработки HTML написал — www_tools

--
Mikl
Re[2]: [Erlang]Работа с html
От: Mr.Cat  
Дата: 06.07.09 09:52
Оценка:
Здравствуйте, Mikl Kurkov, Вы писали:
MK>есть еще xmerl в поставке Erlang, но он больше для XHTML подходит.
Я им как раз и пользуюсь сейчас. Просто ищу, нет ли более подходящего средства.
Исходная задача — привести кусок html в состояние, в котором его можно, скажем, запихнть в rss/atom-ленту. Т.е. оставить только "логическое" форматирование. Наверняка ведь подобную задачу до меня кто-то решал.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.