Интересует, как community борется с разного рода качалками контента?
В первую очередь хочется найти модули к Apache, которые бы анализировалиактивность за последние несолько секунд и отсекали те соединения, которые чересчур активно пользуют сервер...
Поиск по apache.org ничего не дал... где можно ещё покопать кроме поисковиков?
а если я админ какого-нить провайдера с канлаом 2 мегабита по миру, и если таких админов рядом со мной человек 100, и всем срочно приспичило почитать твой сайт?
Здравствуйте, Aquary, Вы писали:
A>День добрый!
A>Интересует, как community борется с разного рода качалками контента?
A>В первую очередь хочется найти модули к Apache, которые бы анализировалиактивность за последние несолько секунд и отсекали те соединения, которые чересчур активно пользуют сервер...
A>Поиск по apache.org ничего не дал... где можно ещё покопать кроме поисковиков?
Кажется, Teleport Pro смотрит на файлик robots.txt. Где-то был у меня сайт, который он не качал. А вот его robots.txt
User-Agent: *
Disallow: /
User-Agent: StackRambler
Disallow:
User-Agent: Yandex
Disallow:
User-Agent: Aport
Disallow:
На сколько я это все понимаю — сайт разрешено индексировать только StackRambler, Yandex и Aport.
П.С. Правда, это не избавляет от offline-browsers, которые не читают robots.txt
Здравствуйте, King Oleg, Вы писали:
KO>Кажется, Teleport Pro смотрит на файлик robots.txt.
.... KO>П.С. Правда, это не избавляет от offline-browsers, которые не читают robots.txt
В том-то и дело...
Есть также мысль сделать на основных страницах, которые больше всего качают, ссылку, невидимую простому юзеру. Когда прога качает страницу, она открывает ссылку скрипта, который запоминает её IP. По нему, в принципе, можно забанить на любое время... одно но — при каждом вызове каждой страницы сайта (где-нибудь в скрипте инициалиацизации) нужно проверять весь список забаненых IP, а это дополнительные запросы и большее время работы скрипта ...
Здравствуйте, Aquary, Вы писали:
A>День добрый!
A>Интересует, как community борется с разного рода качалками контента?
A>В первую очередь хочется найти модули к Apache, которые бы анализировалиактивность за последние несолько секунд и отсекали те соединения, которые чересчур активно пользуют сервер...
A>Поиск по apache.org ничего не дал... где можно ещё покопать кроме поисковиков?
Здравствуйте, Aquary, Вы писали:
A>Здравствуйте, anonymous, Вы писали:
A>>а зачем тебе?... контента жалко?... A>трафика
А ты завешай вот такие скрытые странички баннерами, и твой трафик окупится
Только надо продумать, чтобы качалки захотели и баннеры скачать (они часто ограничиваются одним доменом)
A>Есть также мысль сделать на основных страницах, которые больше всего качают, ссылку, невидимую простому юзеру. Когда прога качает страницу, она открывает ссылку скрипта, который запоминает её IP. По нему, в принципе, можно забанить на любое время... одно но — при каждом вызове каждой страницы сайта (где-нибудь в скрипте инициалиацизации) нужно проверять весь список забаненых IP, а это дополнительные запросы и большее время работы скрипта ...
Проблема в том, что в таком раскладе у тебя благополучно забанятся поисковики.
Здравствуйте, Vamp, Вы писали:
A>>Есть также мысль сделать на основных страницах, которые больше всего качают, ссылку, невидимую простому юзеру. Когда прога качает страницу, она открывает ссылку скрипта, который запоминает её IP. По нему, в принципе, можно забанить на любое время... одно но — при каждом вызове каждой страницы сайта (где-нибудь в скрипте инициалиацизации) нужно проверять весь список забаненых IP, а это дополнительные запросы и большее время работы скрипта ...
V>Проблема в том, что в таком раскладе у тебя благополучно забанятся поисковики.
[]
V>>Проблема в том, что в таком раскладе у тебя благополучно забанятся поисковики.
A>у каждого поискового робота есть уникальное значение UserAgent... можно не банить IP с которых обращаются определенные известные агенты... A>список UA — http://www.searchengines.ru/stories.php?story=02/03/03/9055683
Проблема в том, что у каждого уважающего себя оффлайн-браузера есть настройка "User-Agent"
Здравствуйте, Flamer, Вы писали:
F>Здравствуйте, anonymous, Вы писали:
F>[]
V>>>Проблема в том, что в таком раскладе у тебя благополучно забанятся поисковики.
A>>у каждого поискового робота есть уникальное значение UserAgent... можно не банить IP с которых обращаются определенные известные агенты... A>>список UA — http://www.searchengines.ru/stories.php?story=02/03/03/9055683
F>Проблема в том, что у каждого уважающего себя оффлайн-браузера есть настройка "User-Agent"
не страшно... ) не каждый юзер настолько умен... и не каждому дано разыскать значения UA поисковиков...
кроме того UA нужно проверять совместно с IP...
Здравствуйте, anonymous, Вы писали:
A>Здравствуйте, Flamer, Вы писали:
F>>Проблема в том, что у каждого уважающего себя оффлайн-браузера есть настройка "User-Agent"
A>не страшно... ) не каждый юзер настолько умен... и не каждому дано разыскать значения UA поисковиков...
Проблема в том, что у каждого уважающего себя оффлайн-браузера настройка "User-Agent" по умолчанию "Internet Explorer 5.5"
Здравствуйте, Vamp, Вы писали:
V>Проблема в том, что в таком раскладе у тебя благополучно забанятся поисковики.
Файл robots.txt никто не отменял
Кроме того, если даже кто-то из поисковиков ломанется на него, можно всегда отличить его по UserAgent (поисковиков не так много, их всегда можно отличить)
Здравствуйте, uzzy, Вы писали:
U>Здравствуйте, Aquary, Вы писали:
U>а если я админ какого-нить провайдера с канлаом 2 мегабита по миру, и если таких админов рядом со мной человек 100, и всем срочно приспичило почитать твой сайт?
Здравствуйте, King Oleg, Вы писали:
KO>Здравствуйте, anonymous, Вы писали:
A>>Здравствуйте, Flamer, Вы писали:
F>>>Проблема в том, что у каждого уважающего себя оффлайн-браузера есть настройка "User-Agent"
A>>не страшно... ) не каждый юзер настолько умен... и не каждому дано разыскать значения UA поисковиков...
KO>Проблема в том, что у каждого уважающего себя оффлайн-браузера настройка "User-Agent" по умолчанию "Internet Explorer 5.5"