Подскажите, как "спарсить" веб страницу?
Под спарсить я имею ввиду получить html код веб страницы.
Сейчас через свзяку HttpWebRequest, HttpWebResponse и StreamReader. Но думаю может проще есть способ?
Да и этот способ на мой взгляд какой то тормознутый получается.
Здравствуйте, Аноним, Вы писали:
А>Сейчас через свзяку HttpWebRequest, HttpWebResponse и StreamReader. Но думаю может проще есть способ? А>Да и этот способ на мой взгляд какой то тормознутый получается.
Прокси установите в null, чтобы не тормозило. Иначе каждый раз проверка происходит.
Парсера нормального нет. Вернее есть, он испольуеются в оффлайновом менеджере ведения блогов Live. Но там лицензия. Других нормальных нет, только регулярными выражениями.
Здравствуйте, Аноним, Вы писали:
А>Подскажите, как "спарсить" веб страницу? А>Под спарсить я имею ввиду получить html код веб страницы.
А>Сейчас через свзяку HttpWebRequest, HttpWebResponse и StreamReader. Но думаю может проще есть способ? А>Да и этот способ на мой взгляд какой то тормознутый получается.
Здравствуйте, Аноним, Вы писали:
А>Подскажите, как "спарсить" веб страницу? А>Под спарсить я имею ввиду получить html код веб страницы.
А>Сейчас через свзяку HttpWebRequest, HttpWebResponse и StreamReader. Но думаю может проще есть способ? А>Да и этот способ на мой взгляд какой то тормознутый получается.
Может конечно способ покажется сложноватым или тяжелым, но можно использовать InternetExplorer и mshtml,
там ты гарантированно правильно разберешь сайт на кусочки
Здравствуйте, 0K, Вы писали:
0K>Парсера нормального нет. Вернее есть, он испольуеются в оффлайновом менеджере ведения блогов Live. Но там лицензия. Других нормальных нет, только регулярными выражениями.
Вот уж чем не надо пользоваться для парсинга html, так это регулярными выражениями. Замаешься обрабатывать частные случаи и полный ужас потом в этом разобраться и поддерживать.
Я использовал HtmlAgilityPack, оказалось очень удачно (как раз заменил им первую древнюю реализацию, построеннуюна регэкспах и остался очень доволен)
... << RSDN@Home 1.2.0 alpha 4 rev. 1237>>
Re[3]: Спарсить веб страницу
От:
Аноним
Дата:
29.03.10 09:09
Оценка:
Здравствуйте, fmiracle, Вы писали:
F>Здравствуйте, 0K, Вы писали:
0K>>Парсера нормального нет. Вернее есть, он испольуеются в оффлайновом менеджере ведения блогов Live. Но там лицензия. Других нормальных нет, только регулярными выражениями.
F>Вот уж чем не надо пользоваться для парсинга html, так это регулярными выражениями. Замаешься обрабатывать частные случаи и полный ужас потом в этом разобраться и поддерживать.
F>Я использовал HtmlAgilityPack, оказалось очень удачно (как раз заменил им первую древнюю реализацию, построеннуюна регэкспах и остался очень доволен)
а если на странице используется JavaScript? HtmlAgilityPack — его пеерваривает?
Здравствуйте, <Аноним>, Вы писали:
А>а если на странице используется JavaScript? HtmlAgilityPack — его пеерваривает?
Смотря что ты от него хочешь при этом.
Если тебе надо просто выбрать какие-то данные из html, то javascript при том тебе не помешает.
Если же там на жаваскрипте написан код, который генерирует или модифицирует страницу, то нет (насколько я знаю), htmlagility не воспроизведет его работу, т.к. это только парсер, а не эмулятор работы DOM+JS