Сообщение Re[9]: Поисковая машина для поиска по сайтам снаружи от 20.10.2020 5:00
Изменено 20.10.2020 5:01 Дядюшка Ау
Re[9]: Поисковая машина для поиска по сайтам снаружи
Здравствуйте, Alexey Rovdo, Вы писали:
AR>Здравствуйте, L.K., Вы писали:
ЕМ>>>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.
LK>>Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.
AR>Такой бот будет довольно быстро заблокирован защитой от DDOS или ему предложат распознавать каптчу. Если кто-то не горит желанием отдавать свои документы на индексацию в Google, то он имеет какие-то мотивы для этого, и вряд ли он даст вам выкачивать всю свою базу за здорово живешь.
Технически это легко решается с помощью ZennoPoster/BAS + Capmonster/Xrumer.
Но конечно могут возникнуть вопросы правового характера.
Т.е. пряча документы в дебрях своих личных кабинетов, различные сервисы пытаются монетизироваться с помощью контекстной рекламы и фильтрации лишних пользователей, а если речь о платной подписке к личному кабинету, то тем более.
Обходя все эти хитроумные преграды личных кабинетов эмуляторами типа Зенки вы можете наткнуться на нарушение прав соответствующих правообладателей.
AR>Здравствуйте, L.K., Вы писали:
ЕМ>>>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.
LK>>Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.
AR>Такой бот будет довольно быстро заблокирован защитой от DDOS или ему предложат распознавать каптчу. Если кто-то не горит желанием отдавать свои документы на индексацию в Google, то он имеет какие-то мотивы для этого, и вряд ли он даст вам выкачивать всю свою базу за здорово живешь.
Технически это легко решается с помощью ZennoPoster/BAS + Capmonster/Xrumer.
Но конечно могут возникнуть вопросы правового характера.
Т.е. пряча документы в дебрях своих личных кабинетов, различные сервисы пытаются монетизироваться с помощью контекстной рекламы и фильтрации лишних пользователей, а если речь о платной подписке к личному кабинету, то тем более.
Обходя все эти хитроумные преграды личных кабинетов эмуляторами типа Зенки вы можете наткнуться на нарушение прав соответствующих правообладателей.
Re[9]: Поисковая машина для поиска по сайтам снаружи
Здравствуйте, Alexey Rovdo, Вы писали:
AR>Здравствуйте, L.K., Вы писали:
ЕМ>>>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.
LK>>Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.
AR>Такой бот будет довольно быстро заблокирован защитой от DDOS или ему предложат распознавать каптчу. Если кто-то не горит желанием отдавать свои документы на индексацию в Google, то он имеет какие-то мотивы для этого, и вряд ли он даст вам выкачивать всю свою базу за здорово живешь.
Технически это относительно легко решается автоматикой с помощью ZennoPoster/BAS + Capmonster/Xrumer, даже Рекапча2.
Но конечно могут возникнуть вопросы правового характера.
Т.е. пряча документы в дебрях своих личных кабинетов, различные сервисы пытаются монетизироваться с помощью контекстной рекламы и фильтрации лишних пользователей, а если речь о платной подписке к личному кабинету, то тем более.
Обходя все эти хитроумные преграды личных кабинетов эмуляторами типа Зенки вы можете наткнуться на нарушение прав соответствующих правообладателей.
AR>Здравствуйте, L.K., Вы писали:
ЕМ>>>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.
LK>>Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.
AR>Такой бот будет довольно быстро заблокирован защитой от DDOS или ему предложат распознавать каптчу. Если кто-то не горит желанием отдавать свои документы на индексацию в Google, то он имеет какие-то мотивы для этого, и вряд ли он даст вам выкачивать всю свою базу за здорово живешь.
Технически это относительно легко решается автоматикой с помощью ZennoPoster/BAS + Capmonster/Xrumer, даже Рекапча2.
Но конечно могут возникнуть вопросы правового характера.
Т.е. пряча документы в дебрях своих личных кабинетов, различные сервисы пытаются монетизироваться с помощью контекстной рекламы и фильтрации лишних пользователей, а если речь о платной подписке к личному кабинету, то тем более.
Обходя все эти хитроумные преграды личных кабинетов эмуляторами типа Зенки вы можете наткнуться на нарушение прав соответствующих правообладателей.