[Perl, python, whatever]Html-парсер - Языки с динамической типизацией

Здравствуйте, Mr.Cat, Вы писали:

MC>Буду признателен, если кто-нибудь напомнит, о каких либах шла речь, или подскажет годную либу для выковыривания данных из веб-страничек для питона/ruby (но и другие языки, если что — тоже подойдут).

Для Питона есть BeautifulSoup.

Здравствуйте, Mr.Cat, Вы писали:

MC>[емнип]
MC>Помнится, в одной из веток (о полезности перла) упоминался как killer-feature некий фичастый html-парсер (крайне пригодный для выдирания данных из веб-страничек). Потом было заявлено, что существует порт этой либы на питон.
MC>[/емнип]
MC>Буду признателен, если кто-нибудь напомнит, о каких либах шла речь, или подскажет годную либу для выковыривания данных из веб-страничек для питона/ruby (но и другие языки, если что — тоже подойдут).

Недавно нарвался на не совсем корректный результат от супа (что привели выше), использовал html5lib, ещё есть lxml (его не трогал)

Здравствуйте, Mr.Cat, Вы писали:

MC> Буду признателен, если кто-нибудь напомнит, о каких либах шла речь, или подскажет годную либу для выковыривания данных из веб-страничек для питона/ruby (но и другие языки, если что — тоже подойдут).

Для руби есть scrapes

avalon 1.0rc2 rev 275, zlib 1.2.3

Здравствуйте, Mr.Cat, Вы писали:

MC>(но и другие языки, если что — тоже подойдут).
TagSoup — Haskell

[емнип]
Помнится, в одной из веток (о полезности перла) упоминался как killer-feature некий фичастый html-парсер (крайне пригодный для выдирания данных из веб-страничек). Потом было заявлено, что существует порт этой либы на питон.
[/емнип]
Буду признателен, если кто-нибудь напомнит, о каких либах шла речь, или подскажет годную либу для выковыривания данных из веб-страничек для питона/ruby (но и другие языки, если что — тоже подойдут).

Здравствуйте, Курилка, Вы писали:

К>Здравствуйте, Mr.Cat, Вы писали:

MC>>[емнип]
MC>>Помнится, в одной из веток (о полезности перла) упоминался как killer-feature некий фичастый html-парсер (крайне пригодный для выдирания данных из веб-страничек). Потом было заявлено, что существует порт этой либы на питон.
MC>>[/емнип]
MC>>Буду признателен, если кто-нибудь напомнит, о каких либах шла речь, или подскажет годную либу для выковыривания данных из веб-страничек для питона/ruby (но и другие языки, если что — тоже подойдут).

К>Недавно нарвался на не совсем корректный результат от супа (что привели выше), использовал html5lib, ещё есть lxml (его не трогал)

+1 за lxml. Есть в стандартных пакетах для дебиана и убунты.

In [4]: import lxml.etree as ET

In [5]: doc = ET.HTML('<html><body><h1>privet</h1>blah minor<br><p>unclosed paragraph</body></html>')

In [6]: doc.xpath('//p')
Out[6]: [<Element p at 8464aa4>]

In [7]: ET.tostring(doc)
Out[7]: '<html><body><h1>privet</h1>blah minor<br/><p>unclosed paragraph</p></body></html>'

Версию lxml < 2.0 в мультитредных приложениях стоит применять аккуратно: метод ElementTree.xpath() не отпускает GIL (метод XPath.evaluate() его отпускает, но сам объект XPath не тред-сейфный). Начиная с версии 2.0, это все пофикшено.

	От:	the_void
	Дата:	27.07.09 09:33
	Оценка:	19 (2)

От:	Курилка	http://kirya.narod.ru/
Дата:	27.07.09 09:41
Оценка:	18 (1)

От:	Anton Batenev	https://github.com/abbat
Дата:	27.07.09 09:45
Оценка:	18 (1)

	От:	z00n
	Дата:	27.07.09 20:04
	Оценка:	18 (1)

От:	anonymous	http://denis.ibaev.name/
Дата:	28.07.09 07:35
Оценка:	18 (1)

От:	HiSH	http://m0riarty.ya.ru
Дата:	27.07.09 10:06
Оценка: