Re[2]: [Erlang]Работа с html - Декларативное программирование

Есть куски html-кода, нужно приблизить их к плейнтексту: убрать дивы, спаны (и прочие еретические теги), ссылки на стили и жаваскрипты. Допустимо — полное превращение в плейнтекст.
Есть ли что-то готовое для этого?
Вроде в составе yaws и mochiweb есть html-парсеры, но что-то документация по ним не гуглится. Что лучше использовать?

Здравствуйте, Mr.Cat, Вы писали:

MC>Есть куски html-кода, нужно приблизить их к плейнтексту: убрать дивы, спаны (и прочие еретические теги), ссылки на стили и жаваскрипты. Допустимо — полное превращение в плейнтекст.
MC>Есть ли что-то готовое для этого?
MC>Вроде в составе yaws и mochiweb есть html-парсеры, но что-то документация по ним не гуглится. Что лучше использовать?

Думаю у mochiweb лучше html парсер и работать с ним удобнее. Документация в исходниках, можно сгенерить ее в html.
Вот кстати человек описывает как можно использовать XPath в связке с mochiweb_html — Fun With Mochiweb’s Html Parser And Xpath.

Кроме парсера Yaws есть еще xmerl в поставке Erlang, но он больше для XHTML подходит.
Ну и Joe Armstrong свою библиотеку для обработки HTML написал — www_tools

--
Mikl

Здравствуйте, Mikl Kurkov, Вы писали:
MK>есть еще xmerl в поставке Erlang, но он больше для XHTML подходит.
Я им как раз и пользуюсь сейчас. Просто ищу, нет ли более подходящего средства.
Исходная задача — привести кусок html в состояние, в котором его можно, скажем, запихнть в rss/atom-ленту. Т.е. оставить только "логическое" форматирование. Наверняка ведь подобную задачу до меня кто-то решал.

	От:	Mr.Cat
	Дата:	05.07.09 19:28
	Оценка:

	От:	Mikl Kurkov
	Дата:	06.07.09 09:21
	Оценка:	31 (2)

	От:	Mr.Cat
	Дата:	06.07.09 09:52
	Оценка: