Хочу сделать парсер чтобы загрузить в базу контент с сайта.
Там страниц 1000
Чем грузить странички и чем их лучше парсить?
Мне красота не нужна — нужет чистый html без форматирования
Может кто подскажет инструмент который облегчит работу?
Здравствуйте, Alexander_fx, Вы писали:
A_>Хочу сделать парсер чтобы загрузить в базу контент с сайта.
A_>Там страниц 1000
A_>Чем грузить странички и чем их лучше парсить?
A_>Мне красота не нужна — нужет чистый html без форматирования
A_>Может кто подскажет инструмент который облегчит работу?
В таком случае для парсинга я бы заюзал банальное — regex. Тупо выкосил бы все тэги например, ну может быть ALT у IMG оставил бы, может быть еще что...
А для получения — чем не устраивает WebRequest ?
... << RSDN@Home 1.2.0 alpha rev. 668>>
Здравствуйте, Alexander_fx, Вы писали:
A_>Хочу сделать парсер чтобы загрузить в базу контент с сайта.
A_>Там страниц 1000
A_>Чем грузить странички и чем их лучше парсить?
A_>Мне красота не нужна — нужет чистый html без форматирования
A_>Может кто подскажет инструмент который облегчит работу?
wget
... << RSDN@Home 1.1.4 stable SR1 rev. 568>>
Здравствуйте, Alexander_fx, Вы писали:
A_>Может кто подскажет инструмент который облегчит работу?
Очень приятный инструмент
Html Agility Pack
В исходниках есть пример на интересующую Вас тему
Или просто тупо убить все тэги:
string text = Regex.Replace(html, "<[^>]*>", "");
With Best Regards, George_Saveliev.
Now playing: Paradise lost — Accept the pain
RSDN@Home 1.2.0 alpha rev. 668
Здравствуйте, Alexander_fx, Вы писали:
A_>Хочу сделать парсер чтобы загрузить в базу контент с сайта.
A_>Там страниц 1000
A_>Чем грузить странички и чем их лучше парсить?
A_>Мне красота не нужна — нужет чистый html без форматирования
A_>Может кто подскажет инструмент который облегчит работу?
В таком случае для парсинга я бы заюзал банальное — regex. Тупо выкосил бы все тэги например, ну может быть ALT у IMG оставил бы, может быть еще что...
А для получения — чем не устраивает WebRequest ?
А как быть в случае, если нужно не весь текст зажевать, а разбирать в нем отдельные блоки.. Например, новостную ленту, какую-то. В большинстве случаев выкусить определить где начинается, загловок и т.д. находятся легко, а вот с контентом в общем перечне у меня возникли трудности. Ведь контент содержит тоже HTML коды, которые хотелось бы сохранить.. Причем где конец блока, а где конец HTML-юлока внутри контента я как-то навскидку не смог определить. Может кто-то поможет написать регулярное выражение?
PS. На сайтах как правило используется неструктурированый, грязный HTML, вместо XHTML хоть приблизительно правильного, поэтому как XML парсить не получается..
данное сообщение получено с www.gotdotnet.ru
ссылка на оригинальное сообщение