Здравствуйте, Tai, Вы писали:
Tai>Посоветуйте, пожалуйста, хороший HTML парсер для Firemonkey (Windows, Android). Нужно извлечь все ссылки из html-строки.
А обычный регэксп не сгодится? Ну типа http[s]?://[\w.?=%&]+
Надо ли извлекать только ссылки из незакоментаренного html-кода, или включая те, что в комментах, в контенте тегов и в закоментаренном коде?
Здравствуйте, gyraboo, Вы писали:
G>А обычный регэксп не сгодится? Ну типа http[s]?://[\w.?=%&]+
Ну, незнаю насколько это нужно ТС, но в html документе, в URL — схема и хост не обязательны, а так же путь не обязательно абсолютный.
Здравствуйте, Mystic Artifact, Вы писали:
G>>А обычный регэксп не сгодится? Ну типа http[s]?://[\w.?=%&]+ MA> Ну, незнаю насколько это нужно ТС, но в html документе, в URL — схема и хост не обязательны, а так же путь не обязательно абсолютный.
Поэтому и спрашиваю. От этого зависит выбор способа парсинга, если нужны только ссылки из относительно валидного html-а, то надо парсить html-парсером как DOM и выцеплять ссылки как значения атрибутов из объектной модели распарсенного документа.
Если же надо получить вообще все ссылки, включая ссылки из контента и закомментаренного кода — то тут html-парсер вообще не при делах, и нужно парсить регэкспом, и он конечно будет посложнее приведенного выше.
Здравствуйте, Tai, Вы писали:
Tai>Здравствуйте, Tai>Посоветуйте, пожалуйста, хороший HTML парсер для Firemonkey (Windows, Android). Нужно извлечь все ссылки из html-строки.