Чем парсить html странички?
От: Alexander_fx  
Дата: 04.01.07 15:35
Оценка:
Хочу сделать парсер чтобы загрузить в базу контент с сайта.
Там страниц 1000
Чем грузить странички и чем их лучше парсить?
Мне красота не нужна — нужет чистый html без форматирования
Может кто подскажет инструмент который облегчит работу?
Re: Чем парсить html странички?
От: Vlad Volkov  
Дата: 04.01.07 16:22
Оценка:
Здравствуйте, Alexander_fx, Вы писали:

A_>Хочу сделать парсер чтобы загрузить в базу контент с сайта.

A_>Там страниц 1000
A_>Чем грузить странички и чем их лучше парсить?
A_>Мне красота не нужна — нужет чистый html без форматирования
A_>Может кто подскажет инструмент который облегчит работу?

В таком случае для парсинга я бы заюзал банальное — regex. Тупо выкосил бы все тэги например, ну может быть ALT у IMG оставил бы, может быть еще что...
А для получения — чем не устраивает WebRequest ?
... << RSDN@Home 1.2.0 alpha rev. 668>>
Re: Чем парсить html странички?
От: Lloyd Россия  
Дата: 04.01.07 17:11
Оценка:
Здравствуйте, Alexander_fx, Вы писали:

A_>Хочу сделать парсер чтобы загрузить в базу контент с сайта.

A_>Там страниц 1000
A_>Чем грузить странички и чем их лучше парсить?
A_>Мне красота не нужна — нужет чистый html без форматирования
A_>Может кто подскажет инструмент который облегчит работу?

wget
... << RSDN@Home 1.1.4 stable SR1 rev. 568>>
Re: Чем парсить html странички?
От: George Saveliev Украина  
Дата: 04.01.07 18:59
Оценка:
Здравствуйте, Alexander_fx, Вы писали:

A_>Может кто подскажет инструмент который облегчит работу?


Очень приятный инструмент Html Agility Pack
В исходниках есть пример на интересующую Вас тему

Или просто тупо убить все тэги:
string text = Regex.Replace(html, "<[^>]*>", "");
With Best Regards, George_Saveliev.
Now playing: Paradise lost — Accept the pain
RSDN@Home 1.2.0 alpha rev. 668
Re: Чем парсить html странички?
От: Xa-m-eL  
Дата: 10.01.07 05:56
Оценка:
пользовался вот этим инструментом для парсинга:
http://www.altova.com/products/mapforce/text_file_parsing_and_mapping_to_xml_db_edi.html

и вот этим для мапинга:
http://www.altova.com/products/mapforce/data_mapping.html
RE: Re: Чем парсить html странички?
От: Аноним  
Дата: 04.01.07 20:09
Оценка:
Здравствуйте, Alexander_fx, Вы писали:

A_>Хочу сделать парсер чтобы загрузить в базу контент с сайта.

A_>Там страниц 1000
A_>Чем грузить странички и чем их лучше парсить?
A_>Мне красота не нужна — нужет чистый html без форматирования
A_>Может кто подскажет инструмент который облегчит работу?

В таком случае для парсинга я бы заюзал банальное — regex. Тупо выкосил бы все тэги например, ну может быть ALT у IMG оставил бы, может быть еще что...
А для получения — чем не устраивает WebRequest ?

А как быть в случае, если нужно не весь текст зажевать, а разбирать в нем отдельные блоки.. Например, новостную ленту, какую-то. В большинстве случаев выкусить определить где начинается, загловок и т.д. находятся легко, а вот с контентом в общем перечне у меня возникли трудности. Ведь контент содержит тоже HTML коды, которые хотелось бы сохранить.. Причем где конец блока, а где конец HTML-юлока внутри контента я как-то навскидку не смог определить. Может кто-то поможет написать регулярное выражение?

PS. На сайтах как правило используется неструктурированый, грязный HTML, вместо XHTML хоть приблизительно правильного, поэтому как XML парсить не получается..


данное сообщение получено с www.gotdotnet.ru
ссылка на оригинальное сообщение
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.