Что посоветуете?
Для XML например использую pugixml или tinyxml. Нужно что-то аналогичное для HTML.
Задача простая: никакого выполнения скриптов, никакого рендеринга, а просто загрузить в память и сделать некоторые модификации.
Например перебрать рекурсивно все теги и удалить у них все атрибуты кроме "class". Или удалить некоторые теги, заменив эти теги их собственным содержимым (innerHTML). Или найти в <head> путь к css и при необходимости откорректировать его.
Т.е. библиотека должна уметь загружать, сохранять и предоставлять стандартные функции доступа и модификации DOM.
Ну естественно, нужно что-то качественное и проверенное, при этом желательно легковесное и не тянущее за собой зависимостей. Нечто подобное сейчас попробовал на Qt Webkit, но там нужно загружать страницу в браузерный компонент, а мне нужно для массовой пакетной обработки.