RE: Re: Чем парсить html странички?

Здравствуйте, Alexander_fx, Вы писали:

A_>Хочу сделать парсер чтобы загрузить в базу контент с сайта.
A_>Там страниц 1000
A_>Чем грузить странички и чем их лучше парсить?
A_>Мне красота не нужна — нужет чистый html без форматирования
A_>Может кто подскажет инструмент который облегчит работу?

В таком случае для парсинга я бы заюзал банальное — regex. Тупо выкосил бы все тэги например, ну может быть ALT у IMG оставил бы, может быть еще что...
А для получения — чем не устраивает WebRequest ?

А как быть в случае, если нужно не весь текст зажевать, а разбирать в нем отдельные блоки.. Например, новостную ленту, какую-то. В большинстве случаев выкусить определить где начинается, загловок и т.д. находятся легко, а вот с контентом в общем перечне у меня возникли трудности. Ведь контент содержит тоже HTML коды, которые хотелось бы сохранить.. Причем где конец блока, а где конец HTML-юлока внутри контента я как-то навскидку не смог определить. Может кто-то поможет написать регулярное выражение?

PS. На сайтах как правило используется неструктурированый, грязный HTML, вместо XHTML хоть приблизительно правильного, поэтому как XML парсить не получается..

данное сообщение получено с www.gotdotnet.ru
ссылка на оригинальное сообщение

	От:	Аноним
	Дата:	04.01.07 20:09
	Оценка: