HTML parser
От: Holms США  
Дата: 30.09.03 08:07
Оценка:
а не подскажет народ где можно найти маленький, кроссплатформенный HTML парсер,
для парсинга и выявлениы значений.

т.е. надо например узнать значение атрибутов и то что между тэгами

т.е. если есть хтмл такой формы

<a href="mysite.com"><img src="myimage.gif"></a>
<a href="mtsite.com">CLick here</a>


надо найти для тэга а его атрибут и значение,
для первого случая будет <img src="myimage.gif">
для второго CLick here
... << RSDN@Home 1.1 beta 2 >>
The life is relative and reversible.
Re: HTML parser
От: CMEX_ Россия  
Дата: 30.09.03 08:32
Оценка:
Здравствуйте, Holms, Вы писали:

H>а не подскажет народ где можно найти маленький, кроссплатформенный HTML парсер,

H>для парсинга и выявлениы значений.
Рекоменду немного изучать Java. Кросс-платформенная
______________________
Андрей Панов
Re[2]: HTML parser
От: Holms США  
Дата: 30.09.03 08:35
Оценка:
Здравствуйте, CMEX_, Вы писали:

CME>Здравствуйте, Holms, Вы писали:


H>>а не подскажет народ где можно найти маленький, кроссплатформенный HTML парсер,

H>>для парсинга и выявлениы значений.
CME>Рекоменду немного изучать Java. Кросс-платформенная

мне нужен HTML парсер на С/С++, а не Java.
... << RSDN@Home 1.1 beta 2 >>
The life is relative and reversible.
Re: HTML parser
От: alexandrov_alex США  
Дата: 30.09.03 10:06
Оценка:
Здравствуйте, Holms, Вы писали:

H> а не подскажет народ где можно найти маленький, кроссплатформенный HTML

H> парсер, для парсинга и выявлениы значений.
H>
H> т.е. надо например узнать значение атрибутов и то что между тэгами
H>
H> т.е. если есть хтмл такой формы
H>
H>
 H> <a href="mysite.com"><img src="myimage.gif"></a>
 H> <a href="mtsite.com">CLick here</a>
 H>

H>
H> надо найти для тэга а его атрибут и значение,
H> для первого случая будет <img src="myimage.gif">
H> для второго CLick here

Если нужно просто выуживать значения атрибутов, то лучше использовать регулярные выражения. Если уж языки советовать для этих целей, то скорее на Perl надо смотреть. Джава тут абсолютно ни при чем.

-- Всего хорошего!
-- Alex Alexandrov, e-mail: alexandrov_alex@fromru.com
Posted via RSDN NNTP Server 1.7 "Bedlam"
It's kind of fun to do the impossible (Walt Disney)
Re[2]: HTML parser
От: Holms США  
Дата: 30.09.03 11:36
Оценка:
Здравствуйте, alexandrov_alex, Вы писали:

_>Если нужно просто выуживать значения атрибутов, то лучше использовать регулярные выражения. Если уж языки советовать для этих целей, то скорее на Perl надо смотреть. Джава тут абсолютно ни при чем.

Согласен

как написать regexp который бы выдавал все содержимое тэга вместе с текстом внутри него (innerText)

например. есть такой фрагмент документа

<body> 
    <table><tr><td><a = href="..." target="..."><img src="..." border='..'/></a></td></tr></table>
</body>


Как получить весь текст тэга а
<a = href="..." target="..."><img src="..." border='..'/></a>
... << RSDN@Home 1.1 beta 2 >>
The life is relative and reversible.
Re[3]: HTML parser
От: alexandrov_alex США  
Дата: 30.09.03 13:11
Оценка:
Здравствуйте, Holms, Вы писали:

H> Здравствуйте, alexandrov_alex, Вы писали:

H>
H> _>Если нужно просто выуживать значения атрибутов, то лучше использовать
H> регулярные выражения. Если уж языки советовать для этих целей, то скорее
H> на Perl надо смотреть. Джава тут абсолютно ни при чем. Согласен
H>
H> как написать regexp который бы выдавал все содержимое тэга вместе с
H> текстом внутри него (innerText)
H>
H> например. есть такой фрагмент документа
H>
H>
 H> <body> 
 H>  <table><tr><td><a = href="..." target="..."><img src="..."
 H> border='..'/></a></td></tr></table> </body>
 H>

H>
H> Как получить весь текст тэга а
H>
 H> <a = href="..." target="..."><img src="..." border='..'/></a>
 H>


Есть замечательнейшая книга гражданина по фамилии Фридл, которая называется "Регулярные выражения". Посвящена эта книга, как это ни удивительно, регулярным выражениям. Издана в оригинале издательством O'Reilly, перевод — "Питер". Там много примеров, в основном как раз про выуживание тегов. Автор работал на Yahoo!, и я так понимаю, весь движок паука там на регулярных выражениях основан.
Примеров касательно вашей задачи я приводить не буду, ибо как боюсь опростоволоситься: с регулярными выражениями я еще нормально, а вот HTML для меня — не очень знакомая вещь.

-- Всего хорошего!
-- Alex Alexandrov, e-mail: alexandrov_alex@fromru.com
Posted via RSDN NNTP Server 1.7 "Bedlam"
It's kind of fun to do the impossible (Walt Disney)
Re: HTML parser
От: Аноним  
Дата: 30.09.03 18:57
Оценка:
Смотри Markup Service в MSDN.
http://msdn.microsoft.com/workshop/browser/mshtml/reference/ifaces/markupservices/markupservices.asp

George.
Re[3]: HTML parser
От: DSD Россия http://911.ru/cv
Дата: 30.09.03 20:34
Оценка:
Здравствуйте, Holms, Вы писали:

H>как написать regexp который бы выдавал все содержимое тэга вместе с текстом внутри него (innerText)


приблизительно так:
/<(a)([\x20]*[^>]*)?>((.|\n)*?)<\/\1>/gi
--
DSD
Re: HTML parser
От: Shire  
Дата: 08.10.03 22:07
Оценка:
Здравствуйте, Holms, Вы писали:

H>а не подскажет народ где можно найти маленький, кроссплатформенный HTML парсер,

HTML Tidy
... << RSDN@Home 1.1 beta 2 >>
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.