[python] Парсинг урлов
От: SergH Россия  
Дата: 16.07.09 13:35
Оценка:
Привет!

urlparse не устраивает, т.к. мне не удалось придумать урл, который она сочла бы некорректным. Все строки, которые я подавал ей на вход, она успешно прожевала (включая пустую, с переводами строк в имени хоста, с запрещёнными символами). А хотелось бы плохие урлы отсеивать на предварительном этапе, а не в последний момент.

Подскажите библиотечку.
Самому писать пока лень, там был довольно большой RFC, насколько я помню, пока даже читать его лень
Делай что должно, и будь что будет
Re: [python] Парсинг урлов
От: neFormal Россия  
Дата: 16.07.09 14:24
Оценка:
Здравствуйте, SergH, Вы писали:

SH>urlparse не устраивает, т.к. мне не удалось придумать урл, который она сочла бы некорректным. Все строки, которые я подавал ей на вход, она успешно прожевала (включая пустую, с переводами строк в имени хоста, с запрещёнными символами). А хотелось бы плохие урлы отсеивать на предварительном этапе, а не в последний момент.


urllib2
на мои ошибки ругалась.. значит уже может кого то считать некорректным
...coding for chaos...
Re[2]: [python] Парсинг урлов
От: SergH Россия  
Дата: 16.07.09 14:43
Оценка:
Здравствуйте, neFormal, Вы писали:

F>urllib2

F>на мои ошибки ругалась.. значит уже может кого то считать некорректным

Насколько я знаю, она не парсит, она сразу по этому урлу лезет. Естественно, даже если она ничего проверять не будет, ей dns ошибку вернёт.
А мне надо только на части разобрать. Схема-хост-путь-параметры.

Или я чего-то в urllib2 не понимаю?
Делай что должно, и будь что будет
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.