Как ускорить awk скрипт выкусывания частей из большого xml? - Unix

Есть awk скрипт который вытаскивает из больших xml файлов нужные куски.

Логика — простейшая, для каждой строки проверяем, не открывается на ней ли искомый тег, и если открывается, то все строки, включая ту на которой встретился закрываюший тег, добавляем в локальную переменную конкатенацией строк. Когда найден закрывающий тег — то выводим содержимое этой переменной и очишаем ее.

Иногда, из за необъснимы странностей во входном файле, тег или не закрывается или еще что-то, и локальная переменная вырастает до двух мегабайт, и скорость конкатенации такой строки замедлятся в сотни раз.

Как можно переделать скрипт, чтобы его ускорить. Мне в голову приходит один способ: сохранять номера строк, на которых встретился открывающий и парный закрывающий тег, и уже во втором проходе вычитывать файл заново и выводить только нужные строки (номера которых были найдены на первом проходе. Вопрос — а можно как-то решить эту задачу за один проход.

Здравствуйте, Igor Sukhov, Вы писали:

IS>Есть awk скрипт который вытаскивает из больших xml файлов нужные куски.

IS>Логика — простейшая, для каждой строки проверяем, не открывается на ней ли искомый тег, и если открывается, то все строки, включая ту на которой встретился закрываюший тег, добавляем в локальную переменную конкатенацией строк.

Зачем? Почему бы сразу не распечатывать?
На перле это было бы в одну строчку, типа:

print if /<tag>/../<\/tag>/;

Здравствуйте, jazzer, Вы писали:

IS>>Есть awk скрипт который вытаскивает из больших xml файлов нужные куски.

IS>>Логика — простейшая, для каждой строки проверяем, не открывается на ней ли искомый тег, и если открывается, то все строки, включая ту на которой встретился закрываюший тег, добавляем в локальную переменную конкатенацией строк.

J>Зачем? Почему бы сразу не распечатывать?
забыл сказать, что распечатывать надо не все узлы с определяемые искомыми тегами, а только те у которых есть подтеги с определенным значением.

Здравствуйте, Igor Sukhov, Вы писали:

J>>Зачем? Почему бы сразу не распечатывать?
IS>забыл сказать, что распечатывать надо не все узлы с определяемые искомыми тегами, а только те у которых есть подтеги с определенным значением.

Маленькая такая деталь

И подтеги на других строчках и вообще могут быть в конце главного 15-мегабайтного тега?

Тогда да, запоминать позиции — это самое правильное. Причем можно прямо там же через fseek/ftell.

Здравствуйте, jazzer, Вы писали:

J>>>Зачем? Почему бы сразу не распечатывать?
IS>>забыл сказать, что распечатывать надо не все узлы с определяемые искомыми тегами, а только те у которых есть подтеги с определенным значением.

J>Маленькая такая деталь

=)
J>И подтеги на других строчках и вообще могут быть в конце главного 15-мегабайтного тега?
нет, подтеги должны быть близко — в пределах 10 килобайт, но почему то не всегда так.

J>Тогда да, запоминать позиции — это самое правильное. Причем можно прямо там же через fseek/ftell.
а как из скрипта узнать текущее cмещение от начала файла чтобы потом передать это в fseek ?

Здравствуйте, Igor Sukhov, Вы писали:

IS>Есть awk скрипт который вытаскивает из больших xml файлов нужные куски.

все это мне напоминает про "забивание гвоздей микроскопом", только несколько наоборот... например "починка смартфона, кувалдой"

)
--
xslt разве не справляется с поставленной задачей? населектить в нем нужных тегов плевое дело и более надежно, чем не предназначенными для парса XML средствами (а также лекго адаптируемо к практически любым будущим изменениям)
тормозит?

Здравствуйте, Igor Sukhov, Вы писали:

IS>Здравствуйте, jazzer, Вы писали:

J>>>>Зачем? Почему бы сразу не распечатывать?
IS>>>забыл сказать, что распечатывать надо не все узлы с определяемые искомыми тегами, а только те у которых есть подтеги с определенным значением.

J>>Маленькая такая деталь

IS>=)
J>>И подтеги на других строчках и вообще могут быть в конце главного 15-мегабайтного тега?
IS>нет, подтеги должны быть близко — в пределах 10 килобайт, но почему то не всегда так.

J>>Тогда да, запоминать позиции — это самое правильное. Причем можно прямо там же через fseek/ftell.
IS>а как из скрипта узнать текущее cмещение от начала файла чтобы потом передать это в fseek ?

Если ты про awk — понятия не имею, имхо, это невозможно там. Я бы для начала выкинул это старье нафиг и заюзал либо перл, либо специализированные инструмент типа xslt.
В перле, когда сматчил начало тега — просто зовешь tell и запоминаешь позицию. Когда нашел свой подтег — делаешь tell опять, вычисляешь разницу (длину) и зовешь seek на начало фрагмента и затем read с длиной.

Но в перле, опять же, все может работать и без этих приседаний, простым аккумулированием строки, как ты делал изначально. Перл все-таки на порядок более продвинутый инструмент, чем awk. Попробуй просто переписать свой awk-скрипт на перл — вполне возможно, удивишься, что все работает и так.

Здравствуйте, zaufi, Вы писали:

IS>>Есть awk скрипт который вытаскивает из больших xml файлов нужные куски.

Z>все это мне напоминает про "забивание гвоздей микроскопом", только несколько наоборот... например "починка смартфона, кувалдой"

)
Z>--
Z>xslt разве не справляется с поставленной задачей? населектить в нем нужных тегов плевое дело и более надежно, чем не предназначенными для парса XML средствами (а также лекго адаптируемо к практически любым будущим изменениям)
Z>тормозит?

я же сказал что xml большой. несомненно у меня есть код который решает ту же задачу в 5 строчек через парсинг ДОМа, но памяти жрет по 50 гигов, что в принципе ок, но все равно долго. авк построчно делает все тоже самое только быстрее. ну и да — будущие изменения для меня пока не приоритет.

Здравствуйте, jazzer, Вы писали:

J>>>Маленькая такая деталь

IS>>=)
J>>>И подтеги на других строчках и вообще могут быть в конце главного 15-мегабайтного тега?
IS>>нет, подтеги должны быть близко — в пределах 10 килобайт, но почему то не всегда так.

J>>>Тогда да, запоминать позиции — это самое правильное. Причем можно прямо там же через fseek/ftell.
IS>>а как из скрипта узнать текущее cмещение от начала файла чтобы потом передать это в fseek ?

J>Если ты про awk — понятия не имею, имхо, это невозможно там. Я бы для начала выкинул это старье нафиг и заюзал либо перл, либо специализированные инструмент типа xslt.

xslt? какой например?

J>В перле, когда сматчил начало тега — просто зовешь tell и запоминаешь позицию. Когда нашел свой подтег — делаешь tell опять, вычисляешь разницу (длину) и зовешь seek на начало фрагмента и затем read с длиной.

J>Но в перле, опять же, все может работать и без этих приседаний, простым аккумулированием строки, как ты делал изначально. Перл все-таки на порядок более продвинутый инструмент, чем awk. Попробуй просто переписать свой awk-скрипт на перл — вполне возможно, удивишься, что все работает и так.

да не хочется лезть в перл только потому что строчки объединяются так медленно. не думаю что в перле это будет сильно быстрее, реализация наверняка одинаковая. подумалось — самое простое это начать складывать в массив и объединять строки непосредсвенно перед выводом...

Здравствуйте, Igor Sukhov, Вы писали:

IS>>>а как из скрипта узнать текущее cмещение от начала файла чтобы потом передать это в fseek ?

J>>Если ты про awk — понятия не имею, имхо, это невозможно там. Я бы для начала выкинул это старье нафиг и заюзал либо перл, либо специализированные инструмент типа xslt.

IS>xslt? какой например?
xsltproc, емнип... но я его на большие файлы не натравлял никогда

J>>В перле, когда сматчил начало тега — просто зовешь tell и запоминаешь позицию. Когда нашел свой подтег — делаешь tell опять, вычисляешь разницу (длину) и зовешь seek на начало фрагмента и затем read с длиной.

IS>да не хочется лезть в перл только потому что строчки объединяются так медленно. не думаю что в перле это будет сильно быстрее, реализация наверняка одинаковая. подумалось — самое простое это начать складывать в массив и объединять строки непосредсвенно перед выводом...

Ну по моему опыту, сколько я не писал скриптов в awk — всегда приходилось переделывать в перл. Просто потому что awk слишком ограниченный и примитивный. Так что в какой-то момент я просто забил — выигрыша от awk никакого, только головная боль и необходимость помнить еще один язык. (Единственный плюс — будет работать в ортодоксальных посиксовых инсталляциях, в которых не предполагается наличие перла.) Так что, имхо, "лезть в перл" на порядок продуктивнее, чем "лезть в awk".
Но хозяин — барин, конечно же.

Здравствуйте, jazzer, Вы писали:

J>Здравствуйте, Igor Sukhov, Вы писали:

IS>>>>а как из скрипта узнать текущее cмещение от начала файла чтобы потом передать это в fseek ?

J>>>Если ты про awk — понятия не имею, имхо, это невозможно там. Я бы для начала выкинул это старье нафиг и заюзал либо перл, либо специализированные инструмент типа xslt.

IS>>xslt? какой например?
J>xsltproc, емнип... но я его на большие файлы не натравлял никогда
ок, будем знать. но на больших файлах оно все равно умрет, т.к. реализовтать выборку по xpath выражения в потоковом режиме или невозможно или каждое выражение придется вычислять за новый проход по файлу.

J>>>В перле, когда сматчил начало тега — просто зовешь tell и запоминаешь позицию. Когда нашел свой подтег — делаешь tell опять, вычисляешь разницу (длину) и зовешь seek на начало фрагмента и затем read с длиной.

IS>>да не хочется лезть в перл только потому что строчки объединяются так медленно. не думаю что в перле это будет сильно быстрее, реализация наверняка одинаковая. подумалось — самое простое это начать складывать в массив и объединять строки непосредсвенно перед выводом...

J>Ну по моему опыту, сколько я не писал скриптов в awk — всегда приходилось переделывать в перл. Просто потому что awk слишком ограниченный и примитивный. Так что в какой-то момент я просто забил — выигрыша от awk никакого, только головная боль и необходимость помнить еще один язык. (Единственный плюс — будет работать в ортодоксальных посиксовых инсталляциях, в которых не предполагается наличие перла.) Так что, имхо, "лезть в перл" на порядок продуктивнее, чем "лезть в awk".
J>Но хозяин — барин, конечно же.
awk гораздо проще, учить перл ради одной проблемы лениво. хотя в awk обнаружилась интересная вещь — т.к. массивы ассоциативные, то индексы в for o in c выражениях выбираются в каком-то внутреннем (для массива) порядке и их приходися сортировать вручную