Защита контента
От: Sinclair Россия https://github.com/evilguest/
Дата: 23.02.22 06:44
Оценка:
Такая тема уже была 18 лет назад — https://rsdn.org/forum/web/525891.1
Автор:
Дата: 01.02.04

Появились ли с тех пор более-менее общепринятые способы защитить контент?
Ну вот, какие-нибудь яндекс маркет или букинг защищаются как-то от желающих склонировать их каталоги?

Как такая защита сочетается с индексируемостью поисковиками?
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Отредактировано 23.02.2022 6:47 Sinclair . Предыдущая версия .
Re: Защита контента
От: Doom100500 Израиль  
Дата: 23.02.22 07:11
Оценка:
Здравствуйте, Sinclair, Вы писали:

S>Такая тема уже была 18 лет назад — https://rsdn.org/forum/web/525891.1
Автор:
Дата: 01.02.04

S>Появились ли с тех пор более-менее общепринятые способы защитить контент?
S>Ну вот, какие-нибудь яндекс маркет или букинг защищаются как-то от желающих склонировать их каталоги?

Ну капчи ставят. А сосуны парсеры пользуются сервисами по раздагыванию капчей.

S>Как такая защита сочетается с индексируемостью поисковиками?


Известных роботов можно детектить и отдавать контент.
Спасибо за внимание
Re[2]: Защита контента
От: ути-пути Россия  
Дата: 23.02.22 12:58
Оценка:
Здравствуйте, Doom100500, Вы писали:

D>Известных роботов можно детектить и отдавать контент.


Как детектить?
Переубедить Вас, к сожалению, мне не удастся, поэтому сразу перейду к оскорблениям.
Re[3]: Защита контента
От: vsb Казахстан  
Дата: 23.02.22 13:50
Оценка:
Здравствуйте, ути-пути, Вы писали:

D>>Известных роботов можно детектить и отдавать контент.


УП>Как детектить?


По IP.
Re[3]: Защита контента
От: Doom100500 Израиль  
Дата: 23.02.22 13:51
Оценка:
Здравствуйте, ути-пути, Вы писали:

УП>Здравствуйте, Doom100500, Вы писали:


D>>Известных роботов можно детектить и отдавать контент.


УП>Как детектить?


По user agent
List of All User Agents for Top Search Engines

EDIT:
Не годный ответ, т.к. парсер может его ставить какой хочет.
Спасибо за внимание
Отредактировано 23.02.2022 13:54 Doom100500 . Предыдущая версия .
Re[4]: Защита контента
От: ути-пути Россия  
Дата: 23.02.22 15:41
Оценка:
Здравствуйте, vsb, Вы писали:

vsb>По IP.


И где их брать?
Переубедить Вас, к сожалению, мне не удастся, поэтому сразу перейду к оскорблениям.
Re[5]: Защита контента
От: vsb Казахстан  
Дата: 23.02.22 16:08
Оценка: :)
Здравствуйте, ути-пути, Вы писали:

vsb>>По IP.


УП>И где их брать?


В гугле.
Re[6]: Защита контента
От: ути-пути Россия  
Дата: 23.02.22 16:28
Оценка:
Здравствуйте, vsb, Вы писали:

vsb>В гугле.


Смешно, да. У гугла, кстати, никакого списка адресов ботов не опубликовано, как и политики их обновления. Так что есть только UA, который не подделает только ленивый.
Переубедить Вас, к сожалению, мне не удастся, поэтому сразу перейду к оскорблениям.
Re[7]: Защита контента
От: vsb Казахстан  
Дата: 23.02.22 16:37
Оценка:
Здравствуйте, ути-пути, Вы писали:

vsb>>В гугле.


УП>Смешно, да.


Да не особо.

> У гугла, кстати, никакого списка адресов ботов не опубликовано, как и политики их обновления.


Ну напиши скрипты, которые будут тебя извещать о том, что на твой сайт пришёл некто с гугловым UA и не гугловым IP и мониторь, откуда эти IP, добавляй их в белый список своевременно. Часто whois по адресу возвращает нужную информацию.

> Так что есть только UA, который не подделает только ленивый.


Ну да, UA и "защита" это не особо сочетается.

Как вариант — попросить гуглбота, чтобы он краулил сайт пореже и не триггерил защиту. Но то такое, себе в ногу стрелять.

Можно попробовать составить паттерны гуглбота. Всякие там особенности IP-пакетов, таймингов, TLS-полей. Обычные спамеры до такого не додумаются и решат, что ты просто по IP режешь. Но плохо представляю, как такое тестить на не особо популярном сайте, куда гугл заходит раз в неделю. Ну и реализовать такое могут не только лишь все.
Отредактировано 23.02.2022 16:40 vsb . Предыдущая версия . Еще …
Отредактировано 23.02.2022 16:39 vsb . Предыдущая версия .
Отредактировано 23.02.2022 16:39 vsb . Предыдущая версия .
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.