Информация об изменениях

Сообщение Re[9]: Поисковая машина для поиска по сайтам снаружи от 20.10.2020 5:00

Изменено 20.10.2020 6:54 Дядюшка Ау

Re[9]: Поисковая машина для поиска по сайтам снаружи
Здравствуйте, Alexey Rovdo, Вы писали:

AR>Здравствуйте, L.K., Вы писали:


ЕМ>>>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.


LK>>Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.


AR>Такой бот будет довольно быстро заблокирован защитой от DDOS или ему предложат распознавать каптчу. Если кто-то не горит желанием отдавать свои документы на индексацию в Google, то он имеет какие-то мотивы для этого, и вряд ли он даст вам выкачивать всю свою базу за здорово живешь.


Технически это (даже Рекапча2, да легко) относительно легко решается автоматикой с помощью ZennoPoster/BAS + Capmonster/Xrumer.
Там и тысячи проксей с плавающими айпи, тысячи случайных номеров для SMS и постоянно новые отпечатки браузеров,
такие эмуляторы неблокируемы без использования квалифицированной ЭЦП, полученной в доверенном УЦ.

Тот же Google относительно легко парсится в так называемых промышленных масштабах с помощью например a-parser и других подобных парсеров.

Но и для ЭЦП они вероятно могут создать сервисы отгадывания, как было раньше лет цать назад еще до использования нейросетей для отгадывания картинок человеками, т.е. с технической (неюридической) точки зрения, — это всего лишь цена вопроса — порог вхождения, скажем вместо нескольких центов за графическую капчу, отгадывание ЭЦП может подорожать до нескольких долларов. Подразумевается пул ЭЦП токенов в компах нищебродов, кто согласится предоставить их для отгадывания, мероприятие конечно сомнительное для владельцев таких сертификатов ЭЦП, в принципе их уже намного легче было бы банить черными списками, чем номера телефонов, айпишники и прочую муть.

Только изредка самым гигантам айти мысли типа Google удается найти дыры в браузерах для временного детекта Зенки, ну до очередного ее релиза с соответствующим багфиксом

Но конечно могут возникнуть вопросы правового характера.

Т.е. пряча документы в дебрях своих личных кабинетов, различные сервисы пытаются монетизироваться с помощью контекстной рекламы и фильтрации лишних пользователей, а если речь о платной подписке к личному кабинету, то тем более.

Обходя все эти хитроумные преграды личных кабинетов эмуляторами типа Зенки, вы можете наткнуться на нарушение прав соответствующих правообладателей уже потом, когда попытаетесь распространять к ним доступ самостоятельно через свои сайты.
Re[9]: Поисковая машина для поиска по сайтам снаружи
Здравствуйте, Alexey Rovdo, Вы писали:

AR>Здравствуйте, L.K., Вы писали:


ЕМ>>>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.


LK>>Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.


AR>Такой бот будет довольно быстро заблокирован защитой от DDOS или ему предложат распознавать каптчу. Если кто-то не горит желанием отдавать свои документы на индексацию в Google, то он имеет какие-то мотивы для этого, и вряд ли он даст вам выкачивать всю свою базу за здорово живешь.


Технически это (даже Рекапча2, да легко) относительно легко решается автоматикой с помощью ZennoPoster/BAS + Capmonster/Xrumer.
Там и тысячи проксей с плавающими айпи, тысячи случайных номеров для SMS и постоянно новые отпечатки браузеров,
такие эмуляторы неблокируемы без использования квалифицированной ЭЦП, полученной в доверенном УЦ.

Тот же Google относительно легко парсится в так называемых промышленных масштабах с помощью например a-parser и других подобных парсеров.

Но и для ЭЦП они вероятно могут создать сервисы отгадывания, как было раньше лет цать назад еще до использования нейросетей для отгадывания картинок человеками, т.е. с технической (неюридической) точки зрения, — это всего лишь цена вопроса — порог вхождения, скажем вместо нескольких центов за графическую капчу, отгадывание ЭЦП может подорожать до нескольких долларов. Подразумевается пул ЭЦП токенов в компах нищебродов, кто согласится предоставить их для отгадывания, мероприятие конечно сомнительное для владельцев таких сертификатов ЭЦП, в принципе их уже намного легче было бы банить черными списками, чем номера телефонов, айпишники и прочую муть.

Только изредка самым гигантам айти мысли типа Google удается найти дыры в браузерах для временного детекта Зенки, ну до очередного ее релиза с соответствующим багфиксом

Но конечно могут возникнуть вопросы правового характера.

Т.е. пряча документы в дебрях своих личных кабинетов, различные сервисы пытаются монетизироваться с помощью контекстной рекламы и фильтрации лишних пользователей, а если речь о платной подписке к личному кабинету, то тем более.

Обходя все эти хитроумные преграды личных кабинетов эмуляторами типа Зенки, вы можете наткнуться на нарушение прав соответствующих правообладателей уже потом, когда попытаетесь распространять контент, полученный из них, самостоятельно через свои сайты.