Появились ли с тех пор более-менее общепринятые способы защитить контент?
Ну вот, какие-нибудь яндекс маркет или букинг защищаются как-то от желающих склонировать их каталоги?
Как такая защита сочетается с индексируемостью поисковиками?
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
S>Появились ли с тех пор более-менее общепринятые способы защитить контент? S>Ну вот, какие-нибудь яндекс маркет или букинг защищаются как-то от желающих склонировать их каталоги?
Ну капчи ставят. А сосуны парсеры пользуются сервисами по раздагыванию капчей.
S>Как такая защита сочетается с индексируемостью поисковиками?
Известных роботов можно детектить и отдавать контент.
Смешно, да. У гугла, кстати, никакого списка адресов ботов не опубликовано, как и политики их обновления. Так что есть только UA, который не подделает только ленивый.
Переубедить Вас, к сожалению, мне не удастся, поэтому сразу перейду к оскорблениям.
Здравствуйте, ути-пути, Вы писали:
vsb>>В гугле.
УП>Смешно, да.
Да не особо.
> У гугла, кстати, никакого списка адресов ботов не опубликовано, как и политики их обновления.
Ну напиши скрипты, которые будут тебя извещать о том, что на твой сайт пришёл некто с гугловым UA и не гугловым IP и мониторь, откуда эти IP, добавляй их в белый список своевременно. Часто whois по адресу возвращает нужную информацию.
> Так что есть только UA, который не подделает только ленивый.
Ну да, UA и "защита" это не особо сочетается.
Как вариант — попросить гуглбота, чтобы он краулил сайт пореже и не триггерил защиту. Но то такое, себе в ногу стрелять.
Можно попробовать составить паттерны гуглбота. Всякие там особенности IP-пакетов, таймингов, TLS-полей. Обычные спамеры до такого не додумаются и решат, что ты просто по IP режешь. Но плохо представляю, как такое тестить на не особо популярном сайте, куда гугл заходит раз в неделю. Ну и реализовать такое могут не только лишь все.