Подскажите библиотеки для C++
От: kronos_vano  
Дата: 11.04.09 20:27
Оценка:
У меня некая дипломная работа и ввиду малого количества времени я хочу воспользоваться готовыми библиотеками, решениями, сниппетами, классами etc.
Мне надо чтобы они работали под *nix и у них не было проблем с юникодом. Я работаю с HTML страницами. Что мне надо:
1) Чистка html (например закрытие незакрытых тегов) вроде подходит libtidy.
2) Преобразователь из html текста в некую структуру удобную для обхода.
3) На входе текст html на выходе некая структура, к которой можно применить xpath, плюс сама библиотека для работы с xpath.
Было бы здорово если бы библиотеки умели работать с текстом вида "<td><a>asdf</a></td>", то есть не с валидной html страницей, а с куском html (конечно сам по себе ошибок не содержащим).
Re: Подскажите библиотеки для C++
От: artem_korneev США https://www.linkedin.com/in/artemkorneev/
Дата: 13.04.09 10:49
Оценка:
Здравствуйте, kronos_vano, Вы писали:

_>Что мне надо:

_>1) Чистка html (например закрытие незакрытых тегов) вроде подходит libtidy.
_>2) Преобразователь из html текста в некую структуру удобную для обхода.

libtidy умеет выдавать XML, который уже можно обрабатывать как угодно.
С уважением, Artem Korneev.
Re: Подскажите библиотеки для C++
От: tikibu  
Дата: 13.04.09 21:05
Оценка:
Здравствуйте, kronos_vano, Вы писали:

_>2) Преобразователь из html текста в некую структуру удобную для обхода.

Самое ближайшее, это htmlcxx (sf.net) некоторое время присматривался

_>3) На входе текст html на выходе некая структура, к которой можно применить xpath, плюс сама библиотека для работы с xpath.

_>Было бы здорово если бы библиотеки умели работать с текстом вида "<td><a>asdf</a></td>", то есть не с валидной html страницей, а с куском html (конечно сам по себе ошибок не содержащим).
"xml grep xpath" В гугле. Первый результат даёт вот это: http://xmlstar.sourceforge.net/

и, как сказали рядом, tidy выдаёт XML на-гора.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.