Сообщение Re: Как распарсить https://apnews.com/ от 05.11.2024 22:20
Изменено 05.11.2024 22:42 kov_serg
Re: Как распарсить https://apnews.com/
Здравствуйте, Passerby, Вы писали:
P>Посмотрел консоль браузера, Network и не нашел никаких запросов. Все скрыто или не так делаю?
1. выкинте C# и используйте python или php или что-то другое скриптовое и не типизированное
ps: как получать cf_clearance надеюсь не надо расcказывать
P>Посмотрел консоль браузера, Network и не нашел никаких запросов. Все скрыто или не так делаю?
1. выкинте C# и используйте python или php или что-то другое скриптовое и не типизированное
<?php require "simple_html_dom.php"; // https://sourceforge.net/projects/simplehtmldom/files/simplehtmldom/1.9.1
$url='https://apnews.com/politics';
$ctx=stream_context_create(['http'=>[
'method'=>"GET",
'header'=>"User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:131.0) Gecko/20100101 Firefox/131.0\r\n" .
"Cookie: cf_clearance=3s8Cea18hD986ddrDiZf._DZ6B1iSLSGGEdzXPkEp1Q-1730843870-1.2.1.1-WHtjEk_hkWNncf7cNcHVOp34HitcyxkXeAvA2Bn_4SU3ZhWWo33kTp0Q0KGabjWhWBpCiZKoZNBAVT8ounNQyHdKuOt5Az9dZkJcBl.tT24Jk4GBhSi_pNuf29X83KazgVncJMlD4NRXwdpFIDV6fxsgNOmXL12Pqv3BbMUEeCPDXGG6dQDBzTelwRHyqOm1024boPi2Tv2jqLa.2Bsr6WHQLLvMPFrPf2qD5l2pOJ_ZD7wowanSDVZI57JDDhnY.SEGFvekz7H3YlKPlkEii.uRHQ12Zin0uKSyItslFULbVRJb4CIRFNIks._qBSEf.m6rLaKqXy8G9gVjDRSQNl3IfH55Roh0wRXsD5YJk6qMDmSBu77aA48D4I1B.lm6\r\n"
]]);
$html=file_get_html($url,false,$ctx);
$i=0;foreach($html->find('.PagePromo-title') as $title) {
$news_text=trim($title->plaintext);
$news_url='';$link=$title->find('a',0); if ($link) $news_url=$link->href;
//printf("%2d. <a href='%s'>%s</a><br/>\n",++$i,$news_url,htmlspecialchars($news_text));
printf("%2d. %s\n",++$i,$news_text);
}
output | |
| |
ps: как получать cf_clearance надеюсь не надо расcказывать
Re: Как распарсить https://apnews.com/
Здравствуйте, Passerby, Вы писали:
P>Посмотрел консоль браузера, Network и не нашел никаких запросов. Все скрыто или не так делаю?
1. выкинте C# и используйте python или php или что-то другое скриптовое и не типизированное
ps: как получать cf_clearance надеюсь не надо расcказывать
P>Посмотрел консоль браузера, Network и не нашел никаких запросов. Все скрыто или не так делаю?
1. выкинте C# и используйте python или php или что-то другое скриптовое и не типизированное
<?php require "simple_html_dom.php"; // https://sourceforge.net/projects/simplehtmldom/files/simplehtmldom/1.9.1
$url='https://apnews.com/politics';
$ctx=stream_context_create(['http'=>[
'method'=>"GET",
'header'=>"User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:131.0) Gecko/20100101 Firefox/131.0\r\n" .
"Cookie: cf_clearance=3s8Cea18hD986ddrDiZf._DZ6B1iSLSGGEdzXPkEp1Q-1730843870-1.2.1.1-WHtjEk_hkWNncf7cNcHVOp34HitcyxkXeAvA2Bn_4SU3ZhWWo33kTp0Q0KGabjWhWBpCiZKoZNBAVT8ounNQyHdKuOt5Az9dZkJcBl.tT24Jk4GBhSi_pNuf29X83KazgVncJMlD4NRXwdpFIDV6fxsgNOmXL12Pqv3BbMUEeCPDXGG6dQDBzTelwRHyqOm1024boPi2Tv2jqLa.2Bsr6WHQLLvMPFrPf2qD5l2pOJ_ZD7wowanSDVZI57JDDhnY.SEGFvekz7H3YlKPlkEii.uRHQ12Zin0uKSyItslFULbVRJb4CIRFNIks._qBSEf.m6rLaKqXy8G9gVjDRSQNl3IfH55Roh0wRXsD5YJk6qMDmSBu77aA48D4I1B.lm6\r\n"
]]);
$html=file_get_html($url,false,$ctx);
$i=0;foreach($html->find('.PagePromo-title') as $title) {
$news_text=trim($title->plaintext);
$news_url='';$link=$title->find('a',0); if ($link) $news_url=$link->href;
//printf("%2d. <a href='%s'>%s</a><br/>\n",++$i,$news_url,htmlspecialchars($news_text));
printf("%2d. %s\n",++$i,$news_text);
}
output | |
| |
ps: как получать cf_clearance надеюсь не надо расcказывать