Я вижу, что тема парсинга HTML периодически обсуждается. Вот и у меня вопрос образовался.
Встала задача их парсить.
Пытаюсь использовать AngleSharp. Вроде бы все ничего, но все еще непонятно, как строить селектор для QuerySelectorAll. Мне пока удается делать только простейшие случаи.
Я использую Visual Studio 2010. Исходники AngleSharp в нем не открываются, проект требует студию поновее. А ковырять исходники в текстовом редакторе – еще то удовольствие. Я потихоньку это делаю, но все равно, многое выпадает. Гугление ведет на одни и те же статьи, ссылки на которые не наз появлялись и здесь.
Может, подскажет кто?
Это читал.
Это тоже. И вот
это. И StackOverflow. И еще что-то. Возможно, я чего-то просто не вижу. С HTML я знаком слишком поверхностно.
В чем вопрос-то?
QuerySelectorAll работает по CSS-селекторам.
document.QuerySelector("em") // выбрать все элементы em (тэг <em>Текст</em>)
document.QuerySelectorAll("em.blue") // выбрать все элементы em (<em class="blue"></em>) у которых есть класс blue
document.QuerySelectorAll("#someId") // выбрать элемент(ы) с идентификатором #someId (<div id="someId">)
document.QuerySelectorAll("input") // выбрать все инпуты (<input type="text" />, <input type="radio" />, etc)
Т.е. тебе не исходинки смотреть надо, а про CSS почитать.