Необходимо написать программу спайдеринга каталога directory.google.com
Цель — сбор URLов на сайты, указанные в каталоге.
Спайдер должен уметь перемещаться по страницам. Поиск УРЛов должен начинаться с указанной
точке в виде УРЛа, например —
http://directory.google.com/Top/Regional/Europe/United_Kingdom/Business_and_Economy/Shopping/.
Или же серии таких вот УРЛов. Необходима возможность указания глубины спайдераинга, запрета
спайдеринга какой-либо другой категории каталога. Это означает, что спайдер не должен подыматься
выше категории Shopping. Так же должна быть возможность указания этой самой высшей точки.
Программа должна поддерживать работу через прокси и в несколько потоков (думаю до 50-100) и при
этом каждый поток должен работать через отдельный прокси.
Сохранятся адреса должны с указанием категории, в которой были найдены. Можно в виде таблицы.
Вторая часть спайдера — это спайдер адресов email адресов по указанным УРЛам. Алгоритм
простой — зайти на главную страницу сайта, сохранить адреса (если были), затем попробовать
найти там ссылку Contact Us, Contact, Contacts, как по тексту, который представляет собой
ссылку, так и сам URL с похожим названием и посмотреть наличие адресов по такой ссылке.
Сохраняться адреса должны в виду таблицы, где первый столбец — это имя домена, на котором
были найдены адреса, а второй столбец — сами адреса. Если их больше, чем 1, то через запятую.
Здравствуйте, berezenko, Вы писали:
B>Здравствуйте, samson_nick, Вы писали:
_>>Здравствуйте, berezenko, Вы писали:
B>>>Необходимо написать программу спайдеринга каталога directory.google.com
_>>1) Под какой осью всё будет работать?
_>>2) Примерные сроки, стоимость и т д?
B>Очень желательно запустить это под Linux. Если предложите вариант под винду — рассмортим.
B>Сроки/оплата — думаю, что за неделю вполне можно сделать альфу, а за две (включая первую) — доделать всё до конца. Оплата — $400.
"Щедро" ... за разработку спамерского ПО
B>>Очень желательно запустить это под Linux. Если предложите вариант под винду — рассмортим.
B>>Сроки/оплата — думаю, что за неделю вполне можно сделать альфу, а за две (включая первую) — доделать всё до конца. Оплата — $400.
E>"Щедро" ... за разработку спамерского ПО
Если бы этот софт еще что-то рассылал, то был бы спаммерским ПО.
Есть что предложить? Если нет, то просьбма не засорять эфир. Оплата вполне обсуждаема.
Здравствуйте, berezenko, Вы писали:
B>Очень желательно запустить это под Linux.
B>Если предложите вариант под винду — рассмортим.
готов заняться данным проектом под виндой
B>Сроки/оплата — думаю, что за неделю вполне можно сделать альфу, а за две (включая первую) — доделать всё до конца.
сроков нужно не менее 1 месяц(альфа через 2 недели)
Оплата — $400.
устраивает(samsonnick@yandex.ru)