Добрый день.
Пишу docx-"парсер". С++, MS Visual Studio 2005
"парсер" должен извлекать из файла текст(структурированно — в виде дерева, где корневые элементы — названия разделов(заголовки), а листья — текст этих разделов).
стадию разархивирования — прошёл, имею список xml'ек.
теперь надо xml'ки пропарсить.
у меня практически нет опыта в парсинге в целом и мало опыта работы с xml в частности, поэтому такой вопрос:
как будет оптимальнее(с точки зрения быстродействия) парсить xml? использовать регулярки, или обрабатывать посимвольно?
или есть другие способы?
буду очень длагодарен за совет.
пс. в принципе, можете порекомендовать библиотеку для этих целей, но мне хотелось написать самому и разобраться.