HTML парсер, как сделать?
От: Azec http://najdi-sebja.ru
Дата: 10.06.09 16:41
Оценка:
Подскажите, как в .net лучше всего работать с html документами. Надо одни таги на другие заменить, хитрым образом, никак не могу найти классы для работы с HTML.
Re: HTML парсер, как сделать?
От: MozgC США http://nightcoder.livejournal.com
Дата: 10.06.09 16:43
Оценка: -1
Видимо либо с помощью регулярных выражений, либо читать HTML-документ как XML (HTML по сути и является XML).
Re: HTML парсер, как сделать?
От: _FRED_ Черногория
Дата: 10.06.09 16:46
Оценка: 7 (2) +1
Здравствуйте, Azec, Вы писали:

A>Подскажите, как в .net лучше всего работать с html документами. Надо одни таги на другие заменить, хитрым образом, никак не могу найти классы для работы с HTML.


SgmlReader
Help will always be given at Hogwarts to those who ask for it.
Re[2]: HTML парсер, как сделать?
От: Azec http://najdi-sebja.ru
Дата: 10.06.09 17:51
Оценка:
Спасибо!
Про HTML и XML
От: Нахлобуч Великобритания https://hglabhq.com
Дата: 11.06.09 06:23
Оценка: 1 (1) +3
HTML не является подмножеством XML и в общем случае XML-парсерами не прочитается. Да и регулярными выражениями парсить его не выйдет именно в силу их регулярности. Разве что просто теги заменять.
octalforty Shoutbox
HgLab: Mercurial Server and Repository Management for Windows
Re[2]: HTML парсер, как сделать?
От: Ziggi111 Россия  
Дата: 11.06.09 07:05
Оценка:
Здравствуйте, _FRED_, Вы писали:

_FR>Здравствуйте, Azec, Вы писали:


A>>Подскажите, как в .net лучше всего работать с html документами. Надо одни таги на другие заменить, хитрым образом, никак не могу найти классы для работы с HTML.


_FR>SgmlReader

_FRED_ как всегда Царь! Спасибо!
Re[3]: HTML парсер, как сделать?
От: _FRED_ Черногория
Дата: 11.06.09 08:12
Оценка:
Здравствуйте, Ziggi111, Вы писали:

A>>>Подскажите, как в .net лучше всего работать с html документами. Надо одни таги на другие заменить, хитрым образом, никак не могу найти классы для работы с HTML.

_FR>>SgmlReader
Z>_FRED_ как всегда Царь! Спасибо!

А ларчик просто открывался…

По ссылке можно найти ещё несколько вариантов.
Help will always be given at Hogwarts to those who ask for it.
Re: Про HTML и XML
От: MozgC США http://nightcoder.livejournal.com
Дата: 11.06.09 09:17
Оценка:
Здравствуйте, Нахлобуч, Вы писали:

Н>HTML не является подмножеством XML и в общем случае XML-парсерами не прочитается.

Валидный XHTML я читал без проблем как XML.

H>Да и регулярными выражениями парсить его не выйдет именно в силу их регулярности. Разве что просто теги заменять.

Автору и нужно как раз теги заменять — тут никаких проблем нет.
Re[2]: Про HTML и XML
От: dsorokin Россия  
Дата: 11.06.09 11:47
Оценка:
H>>Да и регулярными выражениями парсить его не выйдет именно в силу их регулярности. Разве что просто теги заменять.
MC>Автору и нужно как раз теги заменять — тут никаких проблем нет.

А как быть с CDATA? Или в HTML их нельзя использовать? Не помню уже.
Re[2]: Про HTML и XML
От: Аноним  
Дата: 11.06.09 15:44
Оценка: +1
Здравствуйте, MozgC, Вы писали:

MC>Здравствуйте, Нахлобуч, Вы писали:


Н>>HTML не является подмножеством XML и в общем случае XML-парсерами не прочитается.

MC>Валидный XHTML я читал без проблем как XML.

XHTML != HTML
Re: HTML парсер, как сделать?
От: matumba  
Дата: 12.06.09 10:39
Оценка:
A>Подскажите, как в .net лучше всего работать с html документами. Надо одни таги на другие заменить, хитрым образом, никак не могу найти классы для работы с HTML.

А их и нету Regexpы можно вполне юзать, но только чётко представлять себе механизм этих регэкспов.
Вот как искать теги: /<(\w+).*?>/ (крайние слэши — это от Perl )
В группу 1 входит чистое название тега. Есессно, закрывающие теги не ищутся. HTML, прямо говоря, та ещё помойка, поэтому надо готовиться к самой безобразной структуре, включая динамически генерируемые жабоскриптом теги.
Re: HTML парсер, как сделать?
От: Vladek Россия Github
Дата: 14.06.09 07:22
Оценка:
Здравствуйте, Azec, Вы писали:

A>Подскажите, как в .net лучше всего работать с html документами. Надо одни таги на другие заменить, хитрым образом, никак не могу найти классы для работы с HTML.


Вот ещё один свежий проект, причём общественная собственность — AfterWork HTML Parser.
Everything is an object.
Re[2]: HTML парсер, как сделать?
От: IvanLev  
Дата: 15.06.09 09:07
Оценка:
TIDY вам в помощь, самый простой способ который юзаю:
1) превратить html -> xml
2) по xml ходить с помощью XPath ( а у него функционала выше крыши, фантазии не хватит )
проект TIDY поддерживается W3C, думаю этим всё сказано, есть реализация в виде dll под МастдайОС (Гугл тебе в помощь) вот и подключи её C# и пользуй на здоровье
http://www.w3.org/People/Raggett/tidy/

Здравствуйте, _FRED_, Вы писали:

_FR>Здравствуйте, Azec, Вы писали:


A>>Подскажите, как в .net лучше всего работать с html документами. Надо одни таги на другие заменить, хитрым образом, никак не могу найти классы для работы с HTML.


_FR>SgmlReader
Re: HTML парсер, как сделать?
От: Аноним  
Дата: 05.07.09 06:11
Оценка: +1
Здравствуйте, Azec, Вы писали:

A>Подскажите, как в .net лучше всего работать с html документами. Надо одни таги на другие заменить, хитрым образом, никак не могу найти классы для работы с HTML.


Я пользуюсь Html Agility Pack
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.