catbert говорит о том, что "Забавная фича Макрос PegGrammar" (c)Visor2004 может разобрать html и css.
_R_>Вопросы: _R_>1. Сообщение датировано 12.12.10. Уже кто-нибудь написал?
Он говорит о том, зачем принципиально нужна расширяемость парсера. Примером приводит HTML + CSS + JavaScript — три различных языка, которые вполне могут находиться в одном документе.
_R_>2. Возможна ли обработка ошибок описанная _R_>2.1. для html: 1.10.2 Syntax errors. _R_>2.2. для css: 4.2 Rules for handling parsing errors
Принципиально возможна.
_R_>3. Естественно есть описания форматов: _R_>3.1. для html — dtd. Реально ли написать конвертер из DTD в описание PEG. Идеально было бы в runtime. _R_>3.2. для css Appendix G. Grammar of CSS 2.1. Этого достаточно для написания парсера?
_R_>Я так понимаю, что принципиальная возможность есть, но вот как насчет полной поддержки стандартов?
Поддержать их можно, просто никому не интересно/не нужно писать еще один парсер html.
3. Естественно есть описания форматов:
3.1. для html — dtd. Реально ли написать конвертер из DTD в описание PEG. Идеально было бы в runtime.
3.2. для css Appendix G. Grammar of CSS 2.1. Этого достаточно для написания парсера?
Я так понимаю, что принципиальная возможность есть, но вот как насчет полной поддержки стандартов?
Здравствуйте, hardcase, Вы писали:
_R_>>2. Возможна ли обработка ошибок описанная _R_>>2.1. для html: 1.10.2 Syntax errors. _R_>>2.2. для css: 4.2 Rules for handling parsing errors H>Принципиально возможна.
Принципиально намекает на трудно и не тривиально?
Здравствуйте, _Raz_, Вы писали:
_R_>Здравствуйте, hardcase, Вы писали:
_R_>>>2. Возможна ли обработка ошибок описанная _R_>>>2.1. для html: 1.10.2 Syntax errors. _R_>>>2.2. для css: 4.2 Rules for handling parsing errors H>>Принципиально возможна. _R_>Принципиально намекает на трудно и не тривиально?
У нас есть в PegGrammar предикаты и восстановление после ошибок, так что поддержать синтаксические ошибки можно вполне и это не трудно. Семантические ошибки (at и прочее) должны отлавливаться на уровне анализа построенного AST.
Здравствуйте, _Raz_, Вы писали:
_R_>Здравствуйте, hardcase, Вы писали:
H>>Поддержать их можно, просто никому не интересно/не нужно писать еще один парсер html. _R_>Пункт 5
. Да и вообще, ситуация напоминает бардак. У всех есть всего по немногу, но цельного продукта нет. H>За пунктом 5 — к автору этого пункта, в публичных репозитории такого кода нет.
Я к тому, что выражение "просто никому не интересно/не нужно" не верно.
. Да и вообще, ситуация напоминает бардак. У всех есть всего по немногу, но цельного продукта нет.
H>За пунктом 5 — к автору этого пункта,
У нас рукопашный парсер HTML, не PEG, и к тому же весьма специфический. АСТ на выходе имеет мало чего общего с DOM, даже в общих чертах, по нему документ не отрисуешь ну никак
H>в публичных репозитории такого кода нет.