Спарсить веб страницу
От: Аноним  
Дата: 27.03.10 20:15
Оценка:
Подскажите, как "спарсить" веб страницу?
Под спарсить я имею ввиду получить html код веб страницы.

Сейчас через свзяку HttpWebRequest, HttpWebResponse и StreamReader. Но думаю может проще есть способ?
Да и этот способ на мой взгляд какой то тормознутый получается.
Re: Спарсить веб страницу
От: 0K Ниоткуда  
Дата: 28.03.10 02:07
Оценка:
Здравствуйте, Аноним, Вы писали:

А>Сейчас через свзяку HttpWebRequest, HttpWebResponse и StreamReader. Но думаю может проще есть способ?

А>Да и этот способ на мой взгляд какой то тормознутый получается.

Прокси установите в null, чтобы не тормозило. Иначе каждый раз проверка происходит.

Парсера нормального нет. Вернее есть, он испольуеются в оффлайновом менеджере ведения блогов Live. Но там лицензия. Других нормальных нет, только регулярными выражениями.
Re: Спарсить веб страницу
От: Ziaw Россия  
Дата: 28.03.10 02:48
Оценка: +2
Здравствуйте, Аноним, Вы писали:

А>Подскажите, как "спарсить" веб страницу?

А>Под спарсить я имею ввиду получить html код веб страницы.

А>Сейчас через свзяку HttpWebRequest, HttpWebResponse и StreamReader. Но думаю может проще есть способ?

А>Да и этот способ на мой взгляд какой то тормознутый получается.

http://htmlagilitypack.codeplex.com/Wikipage
Re: Спарсить веб страницу
От: x64 Россия http://x64blog.name
Дата: 28.03.10 07:33
Оценка:
А>Под спарсить я имею ввиду получить html код веб страницы.

Вот это посмотри, там встроенный HTML-парсер имеется.
JID: x64j@jabber.ru
Re: Спарсить веб страницу
От: Аноним  
Дата: 29.03.10 06:40
Оценка: +1
Здравствуйте, Аноним, Вы писали:

А>Подскажите, как "спарсить" веб страницу?

А>Под спарсить я имею ввиду получить html код веб страницы.

А>Сейчас через свзяку HttpWebRequest, HttpWebResponse и StreamReader. Но думаю может проще есть способ?

А>Да и этот способ на мой взгляд какой то тормознутый получается.

Может конечно способ покажется сложноватым или тяжелым, но можно использовать InternetExplorer и mshtml,
там ты гарантированно правильно разберешь сайт на кусочки
Re: Спарсить веб страницу
От: SergASh  
Дата: 29.03.10 06:56
Оценка:
Здравствуйте, Аноним, Вы писали:

А>Подскажите, как "спарсить" веб страницу?


очень просто
Re[2]: Спарсить веб страницу
От: fmiracle  
Дата: 29.03.10 08:16
Оценка:
Здравствуйте, 0K, Вы писали:

0K>Парсера нормального нет. Вернее есть, он испольуеются в оффлайновом менеджере ведения блогов Live. Но там лицензия. Других нормальных нет, только регулярными выражениями.


Вот уж чем не надо пользоваться для парсинга html, так это регулярными выражениями. Замаешься обрабатывать частные случаи и полный ужас потом в этом разобраться и поддерживать.

Я использовал HtmlAgilityPack, оказалось очень удачно (как раз заменил им первую древнюю реализацию, построеннуюна регэкспах и остался очень доволен)
... << RSDN@Home 1.2.0 alpha 4 rev. 1237>>
Re[3]: Спарсить веб страницу
От: Аноним  
Дата: 29.03.10 09:09
Оценка:
Здравствуйте, fmiracle, Вы писали:

F>Здравствуйте, 0K, Вы писали:


0K>>Парсера нормального нет. Вернее есть, он испольуеются в оффлайновом менеджере ведения блогов Live. Но там лицензия. Других нормальных нет, только регулярными выражениями.


F>Вот уж чем не надо пользоваться для парсинга html, так это регулярными выражениями. Замаешься обрабатывать частные случаи и полный ужас потом в этом разобраться и поддерживать.


F>Я использовал HtmlAgilityPack, оказалось очень удачно (как раз заменил им первую древнюю реализацию, построеннуюна регэкспах и остался очень доволен)


а если на странице используется JavaScript? HtmlAgilityPack — его пеерваривает?
Re[4]: Спарсить веб страницу
От: fmiracle  
Дата: 29.03.10 10:45
Оценка:
Здравствуйте, <Аноним>, Вы писали:

А>а если на странице используется JavaScript? HtmlAgilityPack — его пеерваривает?


Смотря что ты от него хочешь при этом.

Если тебе надо просто выбрать какие-то данные из html, то javascript при том тебе не помешает.

Если же там на жаваскрипте написан код, который генерирует или модифицирует страницу, то нет (насколько я знаю), htmlagility не воспроизведет его работу, т.к. это только парсер, а не эмулятор работы DOM+JS
... << RSDN@Home 1.2.0 alpha 4 rev. 1237>>
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.