Всем привет,
Как по тегу "tag_name":
<tag_name> some data </tag_name>
Получить "some data"???
Для примера, возьмем страницу:
http://tycho.usno.navy.mil/cgi-bin/timer.pl
Саму страницу получил следующим образом:
import httplib2
h = httplib2.Http(".cache")
response, content = h.request('http://tycho.usno.navy.mil/cgi-bin/timer.pl')
html_file = content.decode("utf-8")
print(html_file)
пример страницы:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final"//EN>
<html>
<body>
<TITLE>What time is it?</TITLE>
<H2> US Naval Observatory Master Clock Time</H2> <H3><PRE>
<BR>Aug. 30, 15:48:31 UTC Universal Time
<BR>Aug. 30, 11:48:31 AM EDT Eastern Time
<BR>Aug. 30, 10:48:31 AM CDT Central Time
<BR>Aug. 30, 09:48:31 AM MDT Mountain Time
<BR>Aug. 30, 08:48:31 AM PDT Pacific Time
<BR>Aug. 30, 07:48:31 AM AKDT Alaska Time
<BR>Aug. 30, 05:48:31 AM HAST Hawaii-Aleutian Time
</PRE></H3><P><A HREF="http://www.usno.navy.mil"> US Naval Observatory</A>
</body></html>
Если не сложно, приведите плиииз пример для "<TITLE>"
Здравствуйте, Аноним, Вы писали:
А>Всем привет,
А>Как по тегу "tag_name":
А>А><tag_name> some data </tag_name>
А>
А>Получить "some data"???
мой пост месяц назад
Здравствуйте, Курилка, Вы писали:
К>Здравствуйте, Аноним, Вы писали:
А>>Всем привет,
А>>Как по тегу "tag_name":
А>>А>><tag_name> some data </tag_name>
А>>
А>>Получить "some data"???
К>мой постАвтор: Курилка
Дата: 27.07.09
месяц назад
Признаться, не совсем понял те примеры. например с lxml, где просто получают позицию тага <p>.
Здравствуйте, Аноним, Вы писали:
А>Здравствуйте, Курилка, Вы писали:
К>>Здравствуйте, Аноним, Вы писали:
А>>>Всем привет,
А>>>Как по тегу "tag_name":
А>>>А>>><tag_name> some data </tag_name>
А>>>
А>>>Получить "some data"???
К>>мой постАвтор: Курилка
Дата: 27.07.09
месяц назад
А>Признаться, не совсем понял те примеры. например с lxml, где просто получают позицию тага <p>.
Экспериментируйте. Есть чудесная консоль, называется iPython. Продолжение примера оттуда:
In [3]: doc.xpath('//p')
Out[3]: [<Element p at 8320e3c>]
In [4]: doc.xpath('//p')[0].text
Out[4]: 'unclosed paragraph'