У меня некая дипломная работа и ввиду малого количества времени я хочу воспользоваться готовыми библиотеками, решениями, сниппетами, классами etc.
Мне надо чтобы они работали под *nix и у них не было проблем с юникодом. Я работаю с HTML страницами. Что мне надо:
1) Чистка html (например закрытие незакрытых тегов) вроде подходит libtidy.
2) Преобразователь из html текста в некую структуру удобную для обхода.
3) На входе текст html на выходе некая структура, к которой можно применить xpath, плюс сама библиотека для работы с xpath.
Было бы здорово если бы библиотеки умели работать с текстом вида "<td><a>asdf</a></td>", то есть не с валидной html страницей, а с куском html (конечно сам по себе ошибок не содержащим).