N> | "Есть вот такой замечательный набор строк:" |
| N>?? ??? 17 19:19:52 2018 GMT
N>Do Okt 18 07:00:12 2018 GMT
N>Thu Oct 18 23:18:41 2018 GMT
N>? 10 19 03:47:02 2018 GMT
N>? 10? 23 04:27:48 2018 GMT
N>lun. oct. 29 22:58:27 2018 GMT
N>????? ?????? 6 09:45:29 2018 GMT
N>sáb jul 14 00:34:52 2018 GMT
|
| |
трушный путь, это самом написать. тем более здесь, прослеживается все же один паттерн, формат строк. (ну т.е. понятно где день, часы и прочее)
ленивый путь взять готовую питон библиотеку
https://github.com/scrapinghub/dateparser проверил она эти строки из коробки парсит
| "Есть вот такой замечательный набор строк:" |
| ?? ??? 17 19:19:52 2018 GMT
Do Okt 18 07:00:12 2018 GMT
Thu Oct 18 23:18:41 2018 GMT
? 10 19 03:47:02 2018 GMT
? 10? 23 04:27:48 2018 GMT
lun. oct. 29 22:58:27 2018 GMT
????? ?????? 6 09:45:29 2018 GMT
sáb jul 14 00:34:52 2018 GMT |
| |
и т.д. и т.п.
Т.е. в целом понятно что это записи дат. Вот только достаточно сильно "разноформатные" да и местами еще и подпорченные знаками '?'.
Есть ли способ преобразовать их в нормальные даты, не особо напрягаясь с разбором всех возможных вариантов и написания regexp-ов для их парсинга?
з.ы.
Задача конечно еще та. Но прежде чем приступить к решению в лоб, возможно есть решения по проще или хотя бы упрощающие задачу.
Здравствуйте, nen777w, Вы писали:
N>Есть ли способ преобразовать их в нормальные даты, не особо напрягаясь с разбором всех возможных вариантов и написания regexp-ов для их парсинга?
Чем вам не нравиться способ со списком разных regexp-ов?
Делаете выборку и покрваете все имеющиеся варианты.
N>з.ы.
N>Задача конечно еще та. Но прежде чем приступить к решению в лоб, возможно есть решения по проще или хотя бы упрощающие задачу.
?? ??? 17 19:19:52 2018 GMT
????? ?????? 6 09:45:29 2018 GMT
тут придётся угадывать и возвращать список возможных вариантов.
А каково происхождение ??? неудачные преобразования кодировок?
N>>Есть ли способ преобразовать их в нормальные даты, не особо напрягаясь с разбором всех возможных вариантов и написания regexp-ов для их парсинга?
_>Чем вам не нравиться способ со списком разных regexp-ов?
_>Делаете выборку и покрваете все имеющиеся варианты.
Ну это и есть решение в лоб, возни много будет.
N>>з.ы.
N>>Задача конечно еще та. Но прежде чем приступить к решению в лоб, возможно есть решения по проще или хотя бы упрощающие задачу.
_>_>?? ??? 17 19:19:52 2018 GMT
_>????? ?????? 6 09:45:29 2018 GMT
_>
тут придётся угадывать и возвращать список возможных вариантов.
Да, тут надо будет просто сделать что то вроде возможной даты по умолчанию.
_>А каково происхождение ??? неудачные преобразования кодировок?
Вероятнее вего что да.
Здравствуйте, nen777w, Вы писали:
N>Ну это и есть решение в лоб, возни много будет.
Это только так кажеться. Наните и черз пол часа уже останется десяток не проходящих тесты дат.
N>Да, тут надо будет просто сделать что то вроде возможной даты по умолчанию.
Лучше выдавть список или диапазон. Или признак насколько вероятен неверный результат. А еще луше теже знаки вопроса
_>>А каково происхождение ??? неудачные преобразования кодировок?
N>Вероятнее вего что да.
И что нельзя потребовать вменяемых данных? Или это анализ останков?