Re[2]: HTML parse

Здравствуйте, vsb, Вы писали:

vsb>Здравствуйте, RedCollarPanda, Вы писали:

RCP>>Я подумывал о regex, но на stackoverflow категорически не советуют этого делать.

vsb>Не нужно бездумно слушать SO. Там в основном умные мысли, но встречаются и глупости. Если структура веб-страницы неизменна (генерируется скриптом), то regexp чаще всего прекрасно подходит.

vsb>Суть претензий к регэкспу обычно в том, что XML (и HTML) это рекурсивная структура, а регэкспы не могут парсить рекурсивные структуры. Но в большинстве случаев можно работать с HTML как с текстом, а не как с древовидной структурой и никаких проблем не возникает.

vsb>А так аналог — распарсить HTML в DOM-документ одним из движков и в DOM-е ориентироваться одним из способов (либо XPath-селекторы либо CSS-селекторы).

ТО есть regex подойдет если я хочу нечто вроде :

У меня например есть такие теги в файле, который я закачал

<a href="#hp-feature-2" data-lbl="feature 2"><img src="/us/hp01-thumb-cloudworld-2110108.jpg" alt="Business in the Cloud">

я хочу сделать вместо <img src="/us/hp01-thumb-cloudworld-2110108.jpg"

<img src="/hp01-thumb-cloudworld-2110108.jpg" — как бы из текущей директории

я на всякий пожарный сохраняю в отдельном массиве/буфере название всех картинок.

	От:	RedCollarPanda
	Дата:	17.03.14 12:14
	Оценка:	+1