Re[2]: HTML parse
От: RedCollarPanda  
Дата: 17.03.14 12:14
Оценка: +1
Здравствуйте, vsb, Вы писали:

vsb>Здравствуйте, RedCollarPanda, Вы писали:


RCP>>Я подумывал о regex, но на stackoverflow категорически не советуют этого делать.


vsb>Не нужно бездумно слушать SO. Там в основном умные мысли, но встречаются и глупости. Если структура веб-страницы неизменна (генерируется скриптом), то regexp чаще всего прекрасно подходит.


vsb>Суть претензий к регэкспу обычно в том, что XML (и HTML) это рекурсивная структура, а регэкспы не могут парсить рекурсивные структуры. Но в большинстве случаев можно работать с HTML как с текстом, а не как с древовидной структурой и никаких проблем не возникает.


vsb>А так аналог — распарсить HTML в DOM-документ одним из движков и в DOM-е ориентироваться одним из способов (либо XPath-селекторы либо CSS-селекторы).


ТО есть regex подойдет если я хочу нечто вроде :

У меня например есть такие теги в файле, который я закачал


<a href="#hp-feature-2" data-lbl="feature 2"><img src="/us/hp01-thumb-cloudworld-2110108.jpg" alt="Business in the Cloud">

я хочу сделать вместо <img src="/us/hp01-thumb-cloudworld-2110108.jpg"

<img src="/hp01-thumb-cloudworld-2110108.jpg" — как бы из текущей директории

я на всякий пожарный сохраняю в отдельном массиве/буфере название всех картинок.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.