Чем парсить html странички? - .NET

Хочу сделать парсер чтобы загрузить в базу контент с сайта.
Там страниц 1000
Чем грузить странички и чем их лучше парсить?
Мне красота не нужна — нужет чистый html без форматирования
Может кто подскажет инструмент который облегчит работу?

Здравствуйте, Alexander_fx, Вы писали:

A_>Хочу сделать парсер чтобы загрузить в базу контент с сайта.
A_>Там страниц 1000
A_>Чем грузить странички и чем их лучше парсить?
A_>Мне красота не нужна — нужет чистый html без форматирования
A_>Может кто подскажет инструмент который облегчит работу?

В таком случае для парсинга я бы заюзал банальное — regex. Тупо выкосил бы все тэги например, ну может быть ALT у IMG оставил бы, может быть еще что...
А для получения — чем не устраивает WebRequest ?

... << RSDN@Home 1.2.0 alpha rev. 668>>

Здравствуйте, Alexander_fx, Вы писали:

A_>Хочу сделать парсер чтобы загрузить в базу контент с сайта.
A_>Там страниц 1000
A_>Чем грузить странички и чем их лучше парсить?
A_>Мне красота не нужна — нужет чистый html без форматирования
A_>Может кто подскажет инструмент который облегчит работу?

wget

... << RSDN@Home 1.1.4 stable SR1 rev. 568>>

Здравствуйте, Alexander_fx, Вы писали:

A_>Может кто подскажет инструмент который облегчит работу?

Очень приятный инструмент Html Agility Pack
В исходниках есть пример на интересующую Вас тему

Или просто тупо убить все тэги:

string text = Regex.Replace(html, "<[^>]*>", "");

With Best Regards, George_Saveliev.
Now playing: Paradise lost — Accept the pain
RSDN@Home 1.2.0 alpha rev. 668

пользовался вот этим инструментом для парсинга:
http://www.altova.com/products/mapforce/text_file_parsing_and_mapping_to_xml_db_edi.html

и вот этим для мапинга:
http://www.altova.com/products/mapforce/data_mapping.html

Здравствуйте, Alexander_fx, Вы писали:

A_>Хочу сделать парсер чтобы загрузить в базу контент с сайта.
A_>Там страниц 1000
A_>Чем грузить странички и чем их лучше парсить?
A_>Мне красота не нужна — нужет чистый html без форматирования
A_>Может кто подскажет инструмент который облегчит работу?

В таком случае для парсинга я бы заюзал банальное — regex. Тупо выкосил бы все тэги например, ну может быть ALT у IMG оставил бы, может быть еще что...
А для получения — чем не устраивает WebRequest ?

А как быть в случае, если нужно не весь текст зажевать, а разбирать в нем отдельные блоки.. Например, новостную ленту, какую-то. В большинстве случаев выкусить определить где начинается, загловок и т.д. находятся легко, а вот с контентом в общем перечне у меня возникли трудности. Ведь контент содержит тоже HTML коды, которые хотелось бы сохранить.. Причем где конец блока, а где конец HTML-юлока внутри контента я как-то навскидку не смог определить. Может кто-то поможет написать регулярное выражение?

PS. На сайтах как правило используется неструктурированый, грязный HTML, вместо XHTML хоть приблизительно правильного, поэтому как XML парсить не получается..

данное сообщение получено с www.gotdotnet.ru
ссылка на оригинальное сообщение

	От:	Alexander_fx
	Дата:	04.01.07 15:35
	Оценка:

	От:	Vlad Volkov
	Дата:	04.01.07 16:22
	Оценка:

	От:	Lloyd
	Дата:	04.01.07 17:11
	Оценка:

	От:	George Saveliev
	Дата:	04.01.07 18:59
	Оценка:

	От:	Xa-m-eL
	Дата:	10.01.07 05:56
	Оценка: