HTML DOM Parser library
От: x-code  
Дата: 24.07.20 23:14
Оценка:
Что посоветуете?
Для XML например использую pugixml или tinyxml. Нужно что-то аналогичное для HTML.

Задача простая: никакого выполнения скриптов, никакого рендеринга, а просто загрузить в память и сделать некоторые модификации.
Например перебрать рекурсивно все теги и удалить у них все атрибуты кроме "class". Или удалить некоторые теги, заменив эти теги их собственным содержимым (innerHTML). Или найти в <head> путь к css и при необходимости откорректировать его.

Т.е. библиотека должна уметь загружать, сохранять и предоставлять стандартные функции доступа и модификации DOM.
Ну естественно, нужно что-то качественное и проверенное, при этом желательно легковесное и не тянущее за собой зависимостей. Нечто подобное сейчас попробовал на Qt Webkit, но там нужно загружать страницу в браузерный компонент, а мне нужно для массовой пакетной обработки.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.