Сообщение Re[7]: Как распарсить https://apnews.com/ от 06.11.2024 16:50
Изменено 06.11.2024 16:55 kov_serg
Re[7]: Как распарсить https://apnews.com/
Здравствуйте, Passerby, Вы писали:
P>На строке var cfg = JsonSerializer.Deserialize<Config>(File.ReadAllText(cfgFn)); ошибка во время выполнения: пишет, что нет файла config.json. Совсем разработчики PHP to C# обленились, не могут нормальный код выдать)). Как бы исправить?)
Сначала с командной строки вручную запустите полчучение cf_clearance
(должен быть chrome и зависимости pip install -r requirements.txt)
python3 main.py https://apnews.com/ -v -d -f config.json
должно создать config.json вида:
или сообщить что пошло не так.
ps: в винде скорее всего надо писать просто python. (нужен python3.9+)
pps: там еще какая-то бага которая не даёт менять user_agent и в результате в режиме headless передаётся что оно headless и проверка пролетает. поэтому там ключ -d
P>На строке var cfg = JsonSerializer.Deserialize<Config>(File.ReadAllText(cfgFn)); ошибка во время выполнения: пишет, что нет файла config.json. Совсем разработчики PHP to C# обленились, не могут нормальный код выдать)). Как бы исправить?)
Сначала с командной строки вручную запустите полчучение cf_clearance
(должен быть chrome и зависимости pip install -r requirements.txt)
python3 main.py https://apnews.com/ -v -d -f config.json
должно создать config.json вида:
{
"clearance_cookies": [
{
"unix_timestamp": 1730899837,
"timestamp": "2024-11-06T16:30:37.948107+03:00",
"domain": ".apnews.com",
"cf_clearance": "P1zJXAQYPDqRXWCm7nx5SmfmmS1oPCco_XL0HqWMJ1A-1730899834-1.2.1.1-glaTr4_gtxDinXz3hIZV1zUCc1YsABzZEdLVpbzlCuLHIani1dpJCwuQ2yr4PYOPu9MmRCoFEf7D__xSDjcX2dMAzjeRhfRMKCU9B8acejDFd34CdoGrmaeGmy_FSLrKTSFJILYp7TKxUHEUC9ByvCnXGmLFHnjsZYjsBcNRuaup6a4et5UInSDng9UdeLQEdfqhZssmJip4MeSLqVisYm._GQXBuGdFr4YkAzPP_RxuEQJrRdwTIysnqtS7fMSLA1FyXdT_kd._TofrttwpEbFor1r6yqZetvbGSLr.zN2bEc4Erh5RNM3bXpIuJzJLOMWwlcdCk4lcUwTaItIA.9.r8KDdzbu9QefMD5AiUjUk6YnHIrU2t63LMf9h438e9EZp.WBWBgAaEx5.6V7f0sXRvb1CWGft7bdChtHbWAg",
"user_agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36",
"proxy": null
}
]
}
или сообщить что пошло не так.
ps: в винде скорее всего надо писать просто python. (нужен python3.9+)
pps: там еще какая-то бага которая не даёт менять user_agent и в результате в режиме headless передаётся что оно headless и проверка пролетает. поэтому там ключ -d
Re[7]: Как распарсить https://apnews.com/
Здравствуйте, Passerby, Вы писали:
P>На строке var cfg = JsonSerializer.Deserialize<Config>(File.ReadAllText(cfgFn)); ошибка во время выполнения: пишет, что нет файла config.json. Совсем разработчики PHP to C# обленились, не могут нормальный код выдать)). Как бы исправить?)
Сначала с командной строки вручную запустите полчучение cf_clearance
(должен быть chrome и зависимости pip install -r requirements.txt)
python3 main.py https://apnews.com/ -v -d -f config.json
должно создать config.json вида:
или сообщить что пошло не так.
ps: в винде скорее всего надо писать просто python. (нужен python3.9+)
pps: там еще какая-то бага которая не даёт менять user_agent и в результате в режиме headless передаётся что оно headless и проверка пролетает. поэтому там ключ -d и [fix.begin .. fix.end]
P>На строке var cfg = JsonSerializer.Deserialize<Config>(File.ReadAllText(cfgFn)); ошибка во время выполнения: пишет, что нет файла config.json. Совсем разработчики PHP to C# обленились, не могут нормальный код выдать)). Как бы исправить?)
Сначала с командной строки вручную запустите полчучение cf_clearance
(должен быть chrome и зависимости pip install -r requirements.txt)
python3 main.py https://apnews.com/ -v -d -f config.json
должно создать config.json вида:
{
"clearance_cookies": [
{
"unix_timestamp": 1730899837,
"timestamp": "2024-11-06T16:30:37.948107+03:00",
"domain": ".apnews.com",
"cf_clearance": "P1zJXAQYPDqRXWCm7nx5SmfmmS1oPCco_XL0HqWMJ1A-1730899834-1.2.1.1-glaTr4_gtxDinXz3hIZV1zUCc1YsABzZEdLVpbzlCuLHIani1dpJCwuQ2yr4PYOPu9MmRCoFEf7D__xSDjcX2dMAzjeRhfRMKCU9B8acejDFd34CdoGrmaeGmy_FSLrKTSFJILYp7TKxUHEUC9ByvCnXGmLFHnjsZYjsBcNRuaup6a4et5UInSDng9UdeLQEdfqhZssmJip4MeSLqVisYm._GQXBuGdFr4YkAzPP_RxuEQJrRdwTIysnqtS7fMSLA1FyXdT_kd._TofrttwpEbFor1r6yqZetvbGSLr.zN2bEc4Erh5RNM3bXpIuJzJLOMWwlcdCk4lcUwTaItIA.9.r8KDdzbu9QefMD5AiUjUk6YnHIrU2t63LMf9h438e9EZp.WBWBgAaEx5.6V7f0sXRvb1CWGft7bdChtHbWAg",
"user_agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36",
"proxy": null
}
]
}
или сообщить что пошло не так.
ps: в винде скорее всего надо писать просто python. (нужен python3.9+)
pps: там еще какая-то бага которая не даёт менять user_agent и в результате в режиме headless передаётся что оно headless и проверка пролетает. поэтому там ключ -d и [fix.begin .. fix.end]