Здравствуйте, kronos_vano, Вы писали:
_>Что мне надо: _>1) Чистка html (например закрытие незакрытых тегов) вроде подходит libtidy. _>2) Преобразователь из html текста в некую структуру удобную для обхода.
libtidy умеет выдавать XML, который уже можно обрабатывать как угодно.