Проверка веб страницы
От: AnalogXP  
Дата: 18.01.09 17:06
Оценка:
Здравствуйте!

Не знал точно куда спросить, решил здесь. В общем так, разрабатываю программу для проверки адресов веб страниц на существование. То есть на основе возвращяемых страницей кода, и определяю что она живая(200) или уже нет (404). Какие еще коды можно использовать чтобы считать адрес живым? Наверное можно 302, ...
Re: Проверка веб страницы
От: dkotov  
Дата: 18.01.09 22:44
Оценка:
Почитай описание кодов ошибок.

Интересно а 500-ю как воспринимать
... << RSDN@Home 1.2.0 alpha 4 rev. 1125>>
Re: Проверка веб страницы
От: Bobrik  
Дата: 19.01.09 11:00
Оценка:
http://programmer.telenet.ru/2714 тута
... << RSDN@Home 1.1.4 stable SR1 rev. 568>>
Могу копать.
Могу не копать.
Могу лестницу сделать... только копать долго придется
Re[2]: Проверка веб страницы
От: AnalogXP  
Дата: 20.01.09 09:40
Оценка:
Здравствуйте, Bobrik, Вы писали:

B>http://programmer.telenet.ru/2714 тута

Спасибо, но я это читал. Но вот что меня смущяет:
Я считал только что если страница возвращяет код 200 или 302 то адресс существует.
По Вашей ссылке говорится:

Коды четвертого класса (4.хх) сообщяют об ошибках клиента...

А пользователь прислал несколько адресов которые моя программа считает как мертвые, когда как все они существуют.

1. http://www.fark.com/
2. http://www.guinnessworldrecords.com/
3. http://blogs.technet.com/msrc/
4. http://www.filedropper.com/
5. any cPanel website (see cpanel.net)
6. Google search bookmarks (example: http://www.google.com/search?hl=en&amp;lr=&amp;q=site%3Awar59312.com&amp;btnG=Search)
7. http://www.google.com/linux
8. http://news.google.com/
9. http://msdn.microsoft.com/en-us/magazine/cc163582.aspx#void (seems it thinks all MSDN sites are bad because it can't get pass the live.com log-in)
10. http://translate.google.com/translate_t
11. http://browsershots.org/
12. http://www.kenvillines.com/archives/000099.html#comment-1445
13. http://timjoh.com/wordpress-plugin-hot-or-not-admin-panel/#comment-48
14. http://blog.taragana.com/index.php/archive/what-is-the-optimum-number-of-posts-in-front-page-of-a-blog/#comment-61191
15. http://www.gs.sc.gov/surplus/SP-index.phtm


Оказалось что многие из них возвращяют код 403, 400. Как в таком случае разобратся?
Re[3]: Проверка веб страницы
От: Mamut Швеция http://dmitriid.com
Дата: 20.01.09 10:09
Оценка:
Здравствуйте, AnalogXP, Вы писали:

AXP>Здравствуйте, Bobrik, Вы писали:


B>>http://programmer.telenet.ru/2714 тута

AXP>Спасибо, но я это читал. Но вот что меня смущяет:
AXP>Я считал только что если страница возвращяет код 200 или 302 то адресс существует.
AXP>По Вашей ссылке говорится:
AXP>

AXP>Коды четвертого класса (4.хх) сообщяют об ошибках клиента...

AXP>А пользователь прислал несколько адресов которые моя программа считает как мертвые, когда как все они существуют.

Значит программа неправильно запрашивает ресурс

400 — это неправильный запрос
403 — это ошибка авторизации (видать нужно залогиниться с куками или по HTTP Digest)


dmitriid.comGitHubLinkedIn
Re[3]: Проверка веб страницы
От: Bobrik  
Дата: 20.01.09 10:58
Оценка:
Все зависит от таго как ты запрос делаешь. Он и пишит 4хх ошибки — ошики твоего запроса.
К примеру запрос http://www.google.com/search?hl=en&amp;lr=&amp;q=site%3Awar59312.com&amp;btnG=Search — состоять должен из двух частей — хост (www.google.com) и GET (search?hl=en&lr=&q=site%3Awar59312.com&btnG=Search) , а если ты его разом шлешь — ошибка будет 400.

403 — просто откланили твой запрос — часто их делал, а у них стоит лимит
... << RSDN@Home 1.1.4 stable SR1 rev. 568>>
Могу копать.
Могу не копать.
Могу лестницу сделать... только копать долго придется
Re[4]: Проверка веб страницы
От: Bobrik  
Дата: 20.01.09 11:54
Оценка:
M>400 — это неправильный запрос
M>403 — это ошибка авторизации (видать нужно залогиниться с куками или по HTTP Digest)

как раз цитат от сюда (B>>>http://programmer.telenet.ru/2714) и не хватала для внесения ясность
... << RSDN@Home 1.1.4 stable SR1 rev. 568>>
Могу копать.
Могу не копать.
Могу лестницу сделать... только копать долго придется
Re[4]: Проверка веб страницы
От: AnalogXP  
Дата: 20.01.09 15:37
Оценка:
Здравствуйте, Bobrik, Вы писали:

B>Все зависит от таго как ты запрос делаешь. Он и пишит 4хх ошибки — ошики твоего запроса.

B>К примеру запрос http://www.google.com/search?hl=en&amp;lr=&amp;q=site%3Awar59312.com&amp;btnG=Search — состоять должен из двух частей — хост (www.google.com) и GET (search?hl=en&lr=&q=site%3Awar59312.com&btnG=Search) , а если ты его разом шлешь — ошибка будет 400.
Все верно — я разом все шлю. Ведь я заранее не знаю какую ссылку сохранит пользователь. Мне что, каждую проверяемую ссылку разделить на адрес домена и остальное содержимое, а потом отдельно проверять?
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.