Информация об изменениях

Сообщение Re[9]: Поисковая машина для поиска по сайтам снаружи от 20.10.2020 5:00

Изменено 20.10.2020 5:30 Дядюшка Ау

Re[9]: Поисковая машина для поиска по сайтам снаружи
Здравствуйте, Alexey Rovdo, Вы писали:

AR>Здравствуйте, L.K., Вы писали:


ЕМ>>>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.


LK>>Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.


AR>Такой бот будет довольно быстро заблокирован защитой от DDOS или ему предложат распознавать каптчу. Если кто-то не горит желанием отдавать свои документы на индексацию в Google, то он имеет какие-то мотивы для этого, и вряд ли он даст вам выкачивать всю свою базу за здорово живешь.


Технически это (даже Рекапча2, да легко) относительно легко решается автоматикой с помощью ZennoPoster/BAS + Capmonster/Xrumer.
Там и тысячи проксей с плавающими айпи, тысячи случайных номеров для SMS и постоянно новые отпечатки браузеров,
такие эмуляторы неблокируемы без использования квалифицированной ЭЦП, полученной в доверенном УЦ.

Тот же Google относительно легко парсится в так называемых промышленных масштабах с помощью например a-parser и других подобных парсеров.

Но и для ЭЦП они вероятно могут создать сервисы отгадывания, как было раньше лет цать назад еще до использования нейросетей для отгадывания картинок человеками, т.е. с технической (неюридической) точки зрения, — это всего лишь цена вопроса — порог вхождения, скажем вместо нескольких центов за графическую капчу отгадывание ЭЦП может подорожать до нескольких долларов. Подразумевается пул ЭЦП токенов в компах нищебродов, кто согласится предоставить их для отгадывания, мероприятие конечно сомнительное для владельцев таких сертификатов ЭЦП, в принципе их уже намного легче было бы банить черными списками, чем номера телефонов, айпишники и прочую муть.

Только изредка самым гигантам айти мысли типа Google удается найти дыры в браузерах для временного детекта Зенки, ну до очередного ее релиза с соответствующим багфиксом

Но конечно могут возникнуть вопросы правового характера.

Т.е. пряча документы в дебрях своих личных кабинетов, различные сервисы пытаются монетизироваться с помощью контекстной рекламы и фильтрации лишних пользователей, а если речь о платной подписке к личному кабинету, то тем более.

Обходя все эти хитроумные преграды личных кабинетов эмуляторами типа Зенки, вы можете наткнуться на нарушение прав соответствующих правообладателей уже потом, когда попытаетесь распространять к ним доступ самостоятельно через свои сайты.
Re[9]: Поисковая машина для поиска по сайтам снаружи
Здравствуйте, Alexey Rovdo, Вы писали:

AR>Здравствуйте, L.K., Вы писали:


ЕМ>>>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.


LK>>Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.


AR>Такой бот будет довольно быстро заблокирован защитой от DDOS или ему предложат распознавать каптчу. Если кто-то не горит желанием отдавать свои документы на индексацию в Google, то он имеет какие-то мотивы для этого, и вряд ли он даст вам выкачивать всю свою базу за здорово живешь.


Технически это (даже Рекапча2, да легко) относительно легко решается автоматикой с помощью ZennoPoster/BAS + Capmonster/Xrumer.
Там и тысячи проксей с плавающими айпи, тысячи случайных номеров для SMS и постоянно новые отпечатки браузеров,
такие эмуляторы неблокируемы без использования квалифицированной ЭЦП, полученной в доверенном УЦ.

Тот же Google относительно легко парсится в так называемых промышленных масштабах с помощью например a-parser и других подобных парсеров.

Но и для ЭЦП они вероятно могут создать сервисы отгадывания, как было раньше лет цать назад еще до использования нейросетей для отгадывания картинок человеками, т.е. с технической (неюридической) точки зрения, — это всего лишь цена вопроса — порог вхождения, скажем вместо нескольких центов за графическую капчу, отгадывание ЭЦП может подорожать до нескольких долларов. Подразумевается пул ЭЦП токенов в компах нищебродов, кто согласится предоставить их для отгадывания, мероприятие конечно сомнительное для владельцев таких сертификатов ЭЦП, в принципе их уже намного легче было бы банить черными списками, чем номера телефонов, айпишники и прочую муть.

Только изредка самым гигантам айти мысли типа Google удается найти дыры в браузерах для временного детекта Зенки, ну до очередного ее релиза с соответствующим багфиксом

Но конечно могут возникнуть вопросы правового характера.

Т.е. пряча документы в дебрях своих личных кабинетов, различные сервисы пытаются монетизироваться с помощью контекстной рекламы и фильтрации лишних пользователей, а если речь о платной подписке к личному кабинету, то тем более.

Обходя все эти хитроумные преграды личных кабинетов эмуляторами типа Зенки, вы можете наткнуться на нарушение прав соответствующих правообладателей уже потом, когда попытаетесь распространять к ним доступ самостоятельно через свои сайты.