Здравствуйте, vsb, Вы писали:
vsb>Здравствуйте, RedCollarPanda, Вы писали:
RCP>>Я подумывал о regex, но на stackoverflow категорически не советуют этого делать.
vsb>Не нужно бездумно слушать SO. Там в основном умные мысли, но встречаются и глупости. Если структура веб-страницы неизменна (генерируется скриптом), то regexp чаще всего прекрасно подходит.
vsb>Суть претензий к регэкспу обычно в том, что XML (и HTML) это рекурсивная структура, а регэкспы не могут парсить рекурсивные структуры. Но в большинстве случаев можно работать с HTML как с текстом, а не как с древовидной структурой и никаких проблем не возникает.
vsb>А так аналог — распарсить HTML в DOM-документ одним из движков и в DOM-е ориентироваться одним из способов (либо XPath-селекторы либо CSS-селекторы).
ТО есть regex подойдет если я хочу нечто вроде :
У меня например есть такие теги в файле, который я закачал
<a href="#hp-feature-2" data-lbl="feature 2"><img src="/us/hp01-thumb-cloudworld-2110108.jpg" alt="Business in the Cloud">
я хочу сделать вместо <img src="/us/hp01-thumb-cloudworld-2110108.jpg"
<img src="/hp01-thumb-cloudworld-2110108.jpg" — как бы из текущей директории
я на всякий пожарный сохраняю в отдельном массиве/буфере название всех картинок.