Re[8]: Создать новый компилятор - Прочее

Хочу попробовать написать простенький компилятор языка типа паскаль/с — возможно даже компилируюший в "ассемблероподобные" ыбстрактные конструкции для абстрактной виртуальной машины (для простоты) что бы получше рщзобраться в процессе компиляции... Трудоёмко ли это и с чего бы начать и подъёмно ли это в обозримые сроки ?

Здравствуйте, Аноним, Вы писали:

А>Хочу попробовать написать простенький компилятор языка типа паскаль/с — возможно даже компилируюший

Сразу оговорюсь, я не спец по компиляторам, просто приведу пример. Есть такие 8-разрядные микроконтроллеры AT90****, ATmega**** фирмы ATMEL. Эта фирма бесплатно предоставляет среду разработки, в которой есть только ассемблер.

Сам понимаешь, писать что-то серьезное на асме — это убийство. Для этих МК существует около десятка — двух компиляторов Си или С/С++, самый крутой, IAR, стоит как Visual Studio или даже больше

Такие вот законы рынка

Так вот, я уже года четыре или пять пользуюсь компилером Си одного румына, он его забацал в одиночку и на сегодняшний день продал более 5000 экземпляров. Цена сейчас 150 евро, я как раз в начале недели покупал, закончился годичный срок бесплатных обновлений.

А теперь о трудоемкости. 4-5 лет назад я за день работы ловил у него по нескольку багов, он их тут же исправлял, отсылал мне, я ловил очередные и т.д. Много пожеланий внес в среду, редактор, хотя я сейчас пишу в студии, только компиляю в его компиляторе. А в общем, процесс был тяжелый, он постепенно подбирался все ближе и ближе к стандарту Си. Например, в начале не было enum, struct, много чего не было. Помню, за год размер скомпилированного бинарника уменьшился в 2 раза, оптимизация, понимашь

А для МК с их маленькой памятью это очень важно.

А выбрал я его за то, что по скорости его творение било тот знаменитый IAR, а стоило тогда 150$.
Сейчас на этом компилере реализовано много серьезных проектов, не жалею о выборе.

Собственно, я предлагаю приглядеться к этому рынку, а то что в стол писать

Если что, могу помочь советами/инфой по МК.

Здравствуйте, Аноним, Вы писали:

А>с чего бы начать и подъёмно ли это в обозримые сроки ?

Начать наверное с литературы.
Подъемно, только если реально есть время кроме работы/учебы. По часику вечерком это дохлый номер.
Ну и горящие глаза конечно.

Сам недавно так попытался — но облом из-за времени.

Здравствуйте, wildwind, Вы писали:

W>Здравствуйте, Аноним, Вы писали:

А>>с чего бы начать и подъёмно ли это в обозримые сроки ?

W>Начать наверное с литературы.
W>Подъемно, только если реально есть время кроме работы/учебы. По часику вечерком это дохлый номер.
W>Ну и горящие глаза конечно.

W>Сам недавно так попытался — но облом из-за времени.

И всё-таки оч хочется

Полезной инфой в эокетронном виде не поделимся ?

Здравствуйте, Аноним, Вы писали:

А>Здравствуйте, Аноним, Вы писали:

А>>Хочу попробовать написать простенький компилятор языка типа паскаль/с — возможно даже компилируюший

А>Сразу оговорюсь, я не спец по компиляторам, просто приведу пример. Есть такие 8-разрядные микроконтроллеры AT90****, ATmega**** фирмы ATMEL. Эта фирма бесплатно предоставляет среду разработки, в которой есть только ассемблер.

А>Сам понимаешь, писать что-то серьезное на асме — это убийство. Для этих МК существует около десятка — двух компиляторов Си или С/С++, самый крутой, IAR, стоит как Visual Studio или даже больше

Такие вот законы рынка

А>Так вот, я уже года четыре или пять пользуюсь компилером Си одного румына, он его забацал в одиночку и на сегодняшний день продал более 5000 экземпляров. Цена сейчас 150 евро, я как раз в начале недели покупал, закончился годичный срок бесплатных обновлений.

А>А теперь о трудоемкости. 4-5 лет назад я за день работы ловил у него по нескольку багов, он их тут же исправлял, отсылал мне, я ловил очередные и т.д. Много пожеланий внес в среду, редактор, хотя я сейчас пишу в студии, только компиляю в его компиляторе. А в общем, процесс был тяжелый, он постепенно подбирался все ближе и ближе к стандарту Си. Например, в начале не было enum, struct, много чего не было. Помню, за год размер скомпилированного бинарника уменьшился в 2 раза, оптимизация, понимашь

А для МК с их маленькой памятью это очень важно.

А>А выбрал я его за то, что по скорости его творение било тот знаменитый IAR, а стоило тогда 150$.
А>Сейчас на этом компилере реализовано много серьезных проектов, не жалею о выборе.

А>Собственно, я предлагаю приглядеться к этому рынку, а то что в стол писать

А>Если что, могу помочь советами/инфой по МК.

Это безусловно интересно

Но прежде чем разбираться непосредственно с МК мне наверное с азов компиляции надо начать

ЗЫ инфа по МК интересует

Здравствуйте, Аноним, Вы писали:

А>Это безусловно интересно

Но прежде чем разбираться непосредственно с МК мне наверное с азов компиляции надо начать

Это понятно, что с азов

Я просто хотел показать, что хобби может принести денежку

А>ЗЫ инфа по МК интересует

Например, вот линк по семейству AVR, про котороя я говорил здесь
А вот здесь девайс, который я мучаю в данный момент

Ты будешь смеяться, но 8 Кб памяти программ и 1Кб оперативки — это ОЧЕНЬ много в этом мире

Достаточно сказать что моя последняя программа примерно на 3500 строк (не операторов!!) на Си так и не забила эти 8 Кб

Это тебе не 86-я серия, это RISC

Здравствуйте, Аноним, Вы писали:

А> И всё-таки оч хочется

Полезной инфой в эокетронном виде не поделимся ?

Совсем недавно было:
здесь

Здравствуйте, vog, Вы писали:

vog>Здравствуйте, Аноним, Вы писали:

А>>Это безусловно интересно

Но прежде чем разбираться непосредственно с МК мне наверное с азов компиляции надо начать

vog>Это понятно, что с азов

Я просто хотел показать, что хобби может принести денежку

А>>ЗЫ инфа по МК интересует

vog>Например, вот линк по семейству AVR, про котороя я говорил здесь
vog>А вот здесь девайс, который я мучаю в данный момент

vog>Ты будешь смеяться, но 8 Кб памяти программ и 1Кб оперативки — это ОЧЕНЬ много в этом мире

vog>Достаточно сказать что моя последняя программа примерно на 3500 строк (не операторов!!) на Си так и не забила эти 8 Кб

Это тебе не 86-я серия, это RISC

Нашёл screenshow на русском — можно с неё освоение компиляции начать ?

ЗЫ Напрягает конечно что на паскале, но в принципе без разницы, паскаль понимаю

, не зря в молодости Turbo Pascal юзал

Здравствуйте, Аноним, Вы писали:

А> И всё-таки оч хочется

Полезной инфой в эокетронном виде не поделимся ?

Есть Ахо, Ульман, Сети в формате djvu. Годится?

Здравствуйте, wildwind, Вы писали:

W>Здравствуйте, Аноним, Вы писали:

А>> И всё-таки оч хочется

Полезной инфой в эокетронном виде не поделимся ?

W>Есть Ахо, Ульман, Сети в формате djvu. Годится?

Ага

уже скачал тока что ... А в более приличном формате нет ?

ЗЫ А чем ентот djvu кстати прочитать можно ?

Здравствуйте, Аноним, Вы писали:

А>Нашёл screenshow на русском — можно с неё освоение компиляции начать ?

А>ЗЫ Напрягает конечно что на паскале, но в принципе без разницы, паскаль понимаю

, не зря в молодости Turbo Pascal юзал

Ничего не понял, что за screenshow?

Здравствуйте, Аноним, Вы писали:

А>ЗЫ А чем ентот djvu кстати прочитать можно ?

Плагином к эксплореру

Здравствуйте, vog, Вы писали:

vog>Здравствуйте, Аноним, Вы писали:

А>>Нашёл screenshow на русском — можно с неё освоение компиляции начать ?

А>>ЗЫ Напрягает конечно что на паскале, но в принципе без разницы, паскаль понимаю

, не зря в молодости Turbo Pascal юзал

vog>Ничего не понял, что за screenshow?

Д.Креншоу — давайте создадим компилятор!

Здравствуйте, Аноним, Вы писали:

А>ЗЫ А чем ентот djvu кстати прочитать можно ?

Этим.

Здравствуйте, vog, Вы писали:

vog>Здравствуйте, Аноним, Вы писали:

А>>ЗЫ А чем ентот djvu кстати прочитать можно ?

vog>Плагином к эксплореру

Нарыл плагин. Штука мочная — открывает 30 окошек (у меня мозилла) браузера за первые 10 секунд работы и порывается открывать дальше, еле убил из таск менеджера

Здравствуйте, Аноним, Вы писали:

vog>>Ничего не понял, что за screenshow?

А>Д.Креншоу — давайте создадим компилятор!

Да я же говорил — не владею я этим вопросом

Я embedded

Здравствуйте, Аноним, Вы писали:

А>Нарыл плагин. Штука мочная — открывает 30 окошек (у меня мозилла) браузера за первые 10 секунд работы и порывается открывать дальше, еле убил из таск менеджера

Что-то ты не то скачал, явно.

Здравствуйте, Аноним, Вы писали:

vog>>Плагином к эксплореру

А>Нарыл плагин. Штука мочная — открывает 30 окошек (у меня мозилла) браузера за первые 10 секунд работы и порывается открывать дальше, еле убил из таск менеджера

Однако у тебя реакция.... уважаю

Занимаешься единоборствами?

Здравствуйте, vog, Вы писали:

vog>Здравствуйте, Аноним, Вы писали:

vog>>>Ничего не понял, что за screenshow?

А>>Д.Креншоу — давайте создадим компилятор!

vog>Да я же говорил — не владею я этим вопросом

vog>Я embedded

Здравствуйте, vog, Вы писали:

vog>Здравствуйте, Аноним, Вы писали:

vog>>>Плагином к эксплореру

А>>Нарыл плагин. Штука мочная — открывает 30 окошек (у меня мозилла) браузера за первые 10 секунд работы и порывается открывать дальше, еле убил из таск менеджера

vog>Однако у тебя реакция.... уважаю

Занимаешься единоборствами?

А то

Жизнь такой

, нормальными путями не убивалось — плодила окошки дальше

Я писал за 6 дней. Вполне приличный компилер скромненького Си-подобного язычка, который генерирует ассемблерный код и даже немного его оптимизирует. Даже пятак получил — писалось на сессию.

Так что вполне реально, но только если есть информация. Креншоу тебе уже дали, еще советую Dragon Book. Где-то есть в сети.

Здравствуйте, ansi, Вы писали:

A>Я писал за 6 дней. Вполне приличный компилер скромненького Си-подобного язычка, который генерирует ассемблерный код и даже немного его оптимизирует. Даже пятак получил — писалось на сессию.

Так что вполне реально, но только если есть информация. Креншоу тебе уже дали, еще советую Dragon Book. Где-то есть в сети.

Звучит ободряюще

Dragon book нашёл, правда пока ещё прочитать не могу

Если сохранились исходники и можешь прислать был бы оч благодарен

А>Если сохранились исходники и можешь прислать был бы оч благодарен

Могу конечно. Но понять там что-то трудно

Я не особо знал тогда C++, а о STL и не догадывался... Но тоже может быть полезно. Остается вопрос — куда выслать?

Здравствуйте, ansi, Вы писали:

А>>Если сохранились исходники и можешь прислать был бы оч благодарен

A>Могу конечно. Но понять там что-то трудно

Я не особо знал тогда C++, а о STL и не догадывался... Но тоже может быть полезно. Остается вопрос — куда выслать?

хочу оценить примерный объём работ

слать сюды

Можно тоже и мне выслать исходники на sergeas AT inbox.ru

... << RSDN@Home 1.1.4 beta 4 rev. 318>>

Я, честно говоря, уже не помню, какие книги я читал. Вот помню точно, что Креншоу был и Драгон Бук был. Больше по лекциям, которые я, к сожалению, не записывал, но слушал.

В общем, это не сложно, если знаешь основные принципы построения компилятора, которые я тут вкратце изложу. Ну и конечно архитектуру тоже надо знать.

В канонической форме простой компилятор состоит из 5 основных частей:
1) Лексический анализатор
2) Синтаксический анализатор
3) Семантический анализатор
4) Генератор
5) Оптимизатор

1) Лексическому анализатору (по-буржуйски Scanner) на вход подается исходный текст компилируемой программы, после чего он разбивает его на поток лексем (Token по-буржуйски). Лексема — неделимая, синтаксически правильная единица языка. Например — это идентификатор, константа, запятая, точка, ключевое слово, комментарий, оператор и т.д.
Основная задача его — дать каждой лексеме свой класс, подкласс, значение и др. Например у меня Token был

typedef enum {
   T_UNKNOWN,       //??
   T_COMMENT,       //   /* sdsd */ or //dsfsdf 
   T_STRING,        // "string"
   T_CONTROLWORD,   // if, else, for, while, ...
   T_IDENTIFIER,    // a, b, square, ...
   T_ERROR,         // error in token, f.e. 12321.e3
   T_NUMBER,        // 12, 43.23, 23e-5, 45.0989e10
   T_MATH,          // +, -, /, *, %, <, >, <=, >=, ==, !=, &&, ||, !
   T_SEMICOLON,     // ;
   T_BOOL,          // deprecated
   T_ASSIGNMENT,    // =
   T_EOF,           // end of file
   T_DOT,           // .
   T_COMMA,         // ,
   T_BYREF,         // &
   T_RBRACEOPEN,    // (
   T_RBRACECLOSE,   // )
   T_CBRACEOPEN,    // {
   T_CBRACECLOSE,   // }
   T_SBRACEOPEN,    // [
   T_SBRACECLOSE    // ]
} tokenclass;

class Token {
   public:
      Token(tokenclass c);
      Token(tokenclass c, int i, float f, char *s);

      tokenclass tClass;
      int   asInt;
      float asFloat;
      char *asString;
};

Тут используются такие штуки как конечные автоматы и т.п. Точно не помню, что это, но найти в сети можно. Основной смысл в том, что считывая символ из входного потока, анализатор переходит в новое состояние, причем набор состояний меняется в зависимости от считанного символа. Но лично я, как и многие другие, делал простой набор switch'ей и if'ов. Есть даже генераторы лексических анализаторов — flex, например.

Это твое личное дело, как ты организуешь разбиение на классы, и, возможно, подклассы. Хотя сразу тебе это будет тяжело сделать правильно. Вот когда ты напишешь свой компилятор и поставишь его на полку "Ну ни фига себе я тупаря выхватил!!!", то тогда ты будешь знать, что и как надо было делать. И не только в лексическом анализаторе. Например, относить ли int и float к идентификаторам, или к ключевым словам. Я отнес к идентификаторам. Почему? Потому что объявление переменной может быть и типом, определенным пользователем, который уж точно будет идентификатором. Иначе, надо будет вызывать разбор объявления переменной и после того, как ты встретишь идентификатор (если это тип), и после ключевого слова (если это int, float).

Далее, как только ты разобрал идентификатор, то надо проверить, не является ли он ключевым словом. У тебя должен быть массив ключевых слов, в котором ты делаешь поиск (желательно не линейный, а, например, двоичный). Если нашел, то класс будет уже ключевое слово, а значение, например, индексом этого слова в массиве.

Еще проблема: считать ли 1e2 целой константой, или вещественной? Я считал вещественной для простоты.

Или как, допустим разобрать a+++b? Вообще принято, что используется жадный алгоритм, т.е. в лексему стараются включить как можно больше символов, пока она синтаксически имеет смысл. В данном случае это будет разобрано как a++ + b.

Определение самого анализатора:

class Scanner {
   private:
      iostream *stream;

      int  controlWordIndex(char *s);           // cw search
      int  readDigits(char *s, int sind);       // read all digits
      int  readAlphaNumeric(char *s, int sind); // read alph-num
      Token *readToken();                       // read token into t

      Token *t;
      int lineNum;

      void eatwhite();                          // discard all whites

   public:
      Scanner(iostream *s);
      Token *getToken();     // last read token
      Token *getNextToken(); // read next token
      int getLineNumber();   // cur line number
      int line();            // synonym for previous
};

2) В задачу синтаксического анализатора (Parser) входит анализ потока лексем с точки зрения соответствия синтаксису языка и построение из этого потока некой структуры, удобной для дальнейшего анализа (обычно дерево).
На этом этапе сразу и безоговорочно отметаются всякие штуки вроде a =-;.
С деревом выражений, я надеюсь, ты знаком. Например из a*b + c*(d + e) строится как

      +
   /     \
  *       *
 / \     / \
a   b   c   +
           / \
          d   e

Советую начать именно с разбора выражений, т.к. это, в общем – самое сложное (не по объему, а по мыслительным процессам в бестолковке). Тут надо учитывать приоритеты операций, скобки, унарность/бинарность... Делается все это простым методом рекурсивного спуска (поищи где-нибудь). Хотя я и недопетрил, что это такое, поэтому делал алгоритмом Дейкстры перевода выражения в обратную польскую нотацию (что, в принципе, то же самое, что и построение дерева), который использует два стека – для операндов и операторов (функции parseExpression и _popOperator). Про него можно почитать на http://algolist.manual.ru/. Пусть он поначалу строит деревья для простых переменных, т.е. без всяких индексов, разыменований структур и пр. Остальное добавишь уже потом.

С операторами все проще. Например if имеет три "дитя" – условие, тело, альтернативное тело (это, как понимаешь, может и отсутствовать). for имеет четыре дитя: выражение инициализации, условие, выражение приращения и тело. Первые три могут отсутствовать. Функция имеет 3 дитя, из которых первое – тип возвращаемого значения, второе – тело функции, третье – таблица переменных. И т.д.

Тут отдельно надо отметить, что такое тело. Обычно тело – один оператор. Например: a = a + b;. Соответственно вводится понятие составного оператора. Небольшая ремарка: операция – это математическая, или иная операция (+, -, *, /, ...), что у буржуёв называется operator. Наш оператор – это ихний statement. Вот такой каламбур получается. Составной оператор содержит в себе последовательность операторов (в т.ч. и составных). В Си он задается как { — }, а в Pascal как begin – end.

Далее особо надо отметить переменные. Они бывают нескольких типов: глобальные, аргументы по значению, аргументы по ссылке, локальные. Для контроля их области видимости нужна такая штука, как таблица переменных, а точнее их стек. В начале стека (т.е. самый дальний элемент) будет таблица глобальных переменных, далее таблица переменных функции, и на вершине будут таблицы переменных составного оператора. В Си++, например, каждый блок (т.е. составной оператор) имеет свою таблицу переменных. То есть, если определить переменную внутри блока, то она перестанет формально существовать при его окончании. Я такой штуки не делал – у меня область действия переменной распространяется от объявления до конца тела функции. Т.е. всего две таблицы – глобальных переменных и локальных. Таким образом, изначально в стеке одна таблица – глобальных переменных. Как только ты входишь в функцию, то в этот стек толкаешь ссылку на таблицу переменных функции, которая уже содержит ее аргументы. Как только входишь в блок, то толкаешь туда ссылку на пустую таблицу этого блока. Таким образом, как только ты встречаешь объявление переменной, то записываешь его в таблицу, лежащую на вершине стека. Такой же механизм будет действовать и на следующих этапах с единственным отличием, что здесь ты эти таблицы строишь, а там будешь толкать и использовать уже готовые (эти таблицы должны быть сохранены как дети соответствующих элементов – функций, блоков). Соответственно, чтобы "найти" переменную, надо просматривать все таблицы в стеке, начиная от вершины, пока не найдешь искомую. Структура, по сути, представляет собой простую таблицу переменных. Только когда ее разыменовываешь, уже не смотришь весь стек, а только таблицу этой структуры.

Непосредственно определение переменной должно хранить имя переменной, ссылку на ее тип, размерность и длину каждой размерности (типа массивы

) и смещение. Если переменная – член структуры, то смещение – это смещение относительно начала структуры. Для локальной переменной хранятся смещения относительно регистра ebp (это для генерации кода нужно). Отрицательное смещение говорит о том, что переменная – локальная, положительное – значит аргумент. Для глобальных смещение равно нулю. Таким образом, аргументы по значению, как и в Си — обычные переменные, значение которых можно менять. Сам аргумент является наследником переменной с одним дополнительным полем – типом передачи данных (по значению, по ссылке).

Идентификатор (т.е. использование переменной в коде) хранит ссылку на объект самой переменной а так же дерево выражения индексации (не только массива, но и разыменование структуры) и результирующий тип. Например:

struct {
   float x;
   float y;
} point;

point p[[10][[10];

В данном случае выражение индексации для p[i][j].y будет i*10 + j + 4. Результирующий тип для p[i] будет point[10], для point[i][j] будет point, и, наконец, для point[i][j].y будет float.

3) В задачу семантического анализатора входит анализ корректности программы с точки зрения семантики языка. Сюда включается контроль/приведение типов, вывод сообщений типа "Ты че, офигел?!" на штуки вроде a = i / 0; (конечно не в том случае, если вашему языку обработать бесконечность как два пальца обоссать

) и прочая специфическая для языка лабуда... Только в реальном объемном компиляторе эта стадия выделяется, а так она размазывается по синтаксическому анализу и генерации кода. Останавливаться на ней не буду.

4) И так, мы подошли к генерации кода – тому, ради чего собственно компилятор и пишется. Вкупе с оптимизатором (а генератор очень тесно связан с ним, практически — это одно целое) – это главная часть компилятора. Самая творческая его часть (опять же вкупе с оптимизатором)! Генератор уже работает с конкретным представлением алгоритма, в принципе абстрагируясь от языка. Таким образом, у вас может быть несколько сканеров/парсеров на разные языки и, при условии, что эти языки представимы в таком виде, один генератор на них. Может быть, конечно, и несколько генераторов (на разные архитектуры) – тут простор для фантазий большой.

Как правило, генерируется ассемблерный код. Генерация в машинные коды – это редкость. Именно поэтому всю эту канитель будет правильнее назвать транслятором, т.к. он переводит программу на Языке в эквивалентную программу на языке ассемблера. Рассмотрим все это дело на языке ассемблера для архитектуры x86.

Итак, начнем с генерации кода для выражений. Самый простой способ – это использовать тот факт, что все завязано на стеке. Таким образом, можно сделать шаблон для операции op:

pop ebx
pop eax
op eax, ebx
push eax

Соответственно для переменной/константы будет просто:

push var

Например для выражения a + b * c получим дерево:

  +
 / \
a   *
   / \
  b   c

И при его обходе его узлов "лэвий дочка -> правий дочка -> сам", получим:

push a         ; a – левый сын +
               ; * - правый сын +

push b         ; b – левый сын *

push c         ; c – правый сын *

pop ebx        ; сам *
pop eax
imul eax, ebx
push eax

pop ebx        ; сам +
pop eax
add eax, ebx
push eax

В результате на вершине стека будет лежать значение выражения.

Для операции ++ код будет такой:

; i++ - сначала используем, потом увеличиваем
push i
inc i

; ++i – сначала увеличиваем, потом используем
inc i
push i

Целые числа – это конечно круто, но надо бы добавить и вещественные. В своем компиляторе я использовал 32-битные float для простоты. Основная загвоздка в том, что для разных чисел используются разные команды. Можно конечно складывать два целых числа сопроцом, но это глупо. Поэтому основной принцип такой – если хотя бы один операнд вещественный, то используем сопроцессор, иначе используем обычные команды. Как определить тип операнда? Очень просто – когда функция совершает рекурсивный обход дерева выражения, она должна вернуть этот тип. Соответственно, для переменной она возвращает ее тип – int, float или void (вызов функции void в выражении, это уже будет ошибкой). Для операции она возвращает тип, в зависимости от двух операндов, ей обработанных. Например:

case M_PLUS:
   l = generateExpressionCode(op->getLeft(), b);
   r = generateExpressionCode(op->getRight(), b);
   
   if (l==_VOID || r==_VOID)
      errout(0, "unexpected void", (char *)0);
   
   if (l==_FLOAT || r==_FLOAT) {
      if (l==_FLOAT)
         b->addInstruction(new AsmInstr(FLD, new AsmOperand(mem32, ESP, 4)));
      else
         b->addInstruction(new AsmInstr(FILD, new AsmOperand(mem32, ESP, 4)));
      
      if (r==_FLOAT)
         b->addInstruction(new AsmInstr(FADD, new AsmOperand(mem32, ESP, 0)));
      else
         b->addInstruction(new AsmInstr(FIADD, new AsmOperand(mem32, ESP, 0)));
      
      b->addInstruction(new AsmInstr(ADD, new AsmOperand(reg32, ESP), new AsmOperand(imm32, 4)));
      b->addInstruction(new AsmInstr(FST, new AsmOperand(mem32, ESP, 0)));  // это косяк – на самом деле тут стоит FSTP :)
      return _FLOAT;  // один из операндов вещественный, следовательно и результат вещественный
   } else {
      b->addInstruction(new AsmInstr(POP, new AsmOperand(reg32, EBX)));
      b->addInstruction(new AsmInstr(POP, new AsmOperand(reg32, EAX)));
      b->addInstruction(new AsmInstr(ADD, new AsmOperand(reg32, EAX), new AsmOperand(reg32, EBX)));
      b->addInstruction(new AsmInstr(PUSH, new AsmOperand(reg32, EAX)));
      return _INTEGER; // оба операнда целые
   }

Шаблон op для вещественных операндов будет такой:

f(i)ld dword ptr [esp]+4    ; загрузить левый операнд, он располагается перед вершиной стека
                            ; а стек растет в сторону уменьшения
f(i)op dword ptr [esp]      ; сделать операцию с правым
add esp, 4                  ; освободить один элемент стека
fstp dword ptr [esp]        ; сохранить результат в вершину стека (на место левого операнда)

Если левый операнд целый, то ставится буква i в первой строке (это значит, что загрузить надо целое число). Если правый операнд целый, то ставится i во второй строке кода (выполнить операцию с целым). Ну а если оба вещественные, то никаких i не ставится.

С логическими операциями над вещественными числами немного по-другому – там надо еще флаги сопроцессора сохранять в регистр ah, а оттуда загружать в регистр флагов процессора и только потом делать условный переход. В общем, тут надо почитать документацию по архитектуре x86, благо недостатка в ней нет. С целыми все куда проще. Реализация short circuit вычислений (например, для операции && второй операнд не вычисляется, если первый равен нулю) – задача довольно простая. Например, для операции && над целыми код будет такой:

; тут код для левого выражения

pop eax
test eax, eax
jz and_zero_1  ; левый операнд равен нулю, прекратить вычисления и вернуть 0

; тут код для правого выражения

pop eax
test eax, eax
jz and_zero_1  ; правый операнд равен нулю, вернуть 0

push dword ptr 1  ; оба операнда отличны от нуля, значит в результат заносим 1
jmp and_end_1

and_zero_1:
push dword ptr 0  ; один из операндов равен нулю, значит заносим в результат 0

and_end_1:
; ....

Конечно, это кривая реализация, но все же реализация.

С операторами if, for, while, ..., думаю, проблем не возникнет.

Для функций шаблон такой:

func_name proc
   push ebp         ; сохраняем ebp
   mov ebp, esp     ; ebp становится базой для переменных в стеке
   sub esp, n*4     ; выделяем место для n локальных переменных

   ; тело функции

func_name_return:
   mov esp, ebp     ; восстанавливаем регистр стека
   pop ebp          ; восстанавливаем значение ebp
   ret k*4          ; возврат из функции с очищением стека от k аргументов
func_name endp

Аргументы в стек передаются в обратном порядке. Вызываемая функция очищает стек от аргументов.
В результате стек будет представлять собой следующее:

 ______________
| argument k   | [[ebp]+k*4+8
|--------------|
| argument k-1 | [[ebp]+(k-1)*4+8
|--------------|
| argument ... | [[ebp]+...
|--------------|
| argument 1   | [[ebp]+8
|--------------|
| EIP          | [[ebp]+4
|--------------|
| EBP          | [[ebp]
|--------------|
| variable 1   | [[ebp]-4
|--------------|
| variable ... | [[ebp]-...
|--------------|
| variable n   | [[ebp]-n*4
|--------------|
| ............ |
|______________|

Куда сложнее дело обстоит с переменными: там необходимо учитывать глобальная она, или нет, аргумент по ссылке, или по значению и плюс ко всему этому еще и индексацию навесить.

; На примере первого аргумента и первой переменной
; Для аргумента, переданного по ссылке значение можно получить так:
mov eax, [ebp]+8  ; в функцию передается адрес переменной. загружаем его в eax
mov eax, [eax]    ; загружаем в eax значение, находящееся по адресу, содержащемуся в eax :)
push eax          ; и толкаем в стек

; Адрес переменной, переданной по ссылке получают очень просто:
push [ebp]+8

; Значение локальной переменной тоже получается легко:
push [ebp]-4

; Адрес немного сложнее:
lea eax, [ebp]-4 ; загрузить в eax адрес
push eax         ; и в стек

; С глобальными переменными все просто:
push global_var         ; значение
push offset global_var  ; адрес

; Если есть индексация, то толкаешь в стек базовый адрес переменной (см. выше)
; далее, генерируешь код выражения индексации (он будет на вершине стека), а потом:
pop esi   ; смещение (индексация)
pop eax   ; базовый адрес

; значение в стек
push [eax][esi]

; адрес в стек
add eax, esi
push eax

Короче, про генератор еще много можно писать, даже в таком убогом варианте как этот

Единственное, что генератор не должен генерировать текст. Потому как дальше надо будет оптимизировать сгенерированный код.

5) Оптимизатор, и ежу понятно, оптимизирует весь код. Он происходит и после синтаксического анализа, и во время генерации кода, и после генерации кода.

До генерации кода делаются:

Вычисление констант (выражения типа 2*3 заменяются 6). Также могут заранее вычисляться вызовы функций с постоянными аргументами, если это возможно. Например:

int square(x) {
   return x*x;
}

Оптимизатор может заменить square(4) на 16. Конечно, тут необходим анализ зависимостей этой функции от глобальных переменных, от других функций и прочих внешних факторов.

Вынос инвариантов (т.е. не изменяющих свое значение в течение определенного промежутка времени) из выражений и циклов. Например:

int a = (b + c) * (b + c) * (b + c);

// трансформируется в:
int t = b + c;
int a = t * t * t;

// а вот такую хрень трансформировать не стоит:
int a = (b++ + c) * (b++ + c) * (b++ + c);

// вложенный цикл
for (int i=0; i<n; i++)
   for (int j=0; j<n; j++)
      a[[i][[j] = i*c;

// трансформируется в
int *t1;
int t2;

for (int i=0; i<n; i++) {
   t1 = a[[i];
   t2 = i*c;

   for (int j=0; j<n; j++)
      t1[[j] = t2;
}

Упрощение выражений – замена, например,
a * 2 на a + a,
a * 16 на a << 4,
a*b + c*b на (a + c) * b
и т.п.

Во время генерации кода оптимизатор анализирует стратегии распределения регистров и выбирает оптимальную. Например, он может на некоторое время назначить переменной отдельный регистр, и только потом сохранить ее в память, если понадобится (очевидно, что индекс в цикле заслуживает отдельного регистра, но только на время цикла, память же под него может вообще не выделяться). Если выражение достаточно мало, то его вычисление может пройти вообще без использования стека – только регистры (в частности у FPU восемь регистров, так что вычисление вещественных выражений можно очень неплохо соптимизировать). Под разные переменные может выделяться одна и та же память, если время их использования не пересекается, или пересекается слабо. Сюда же входят inline-включения вызовов функций и т.д. Тут много чего можно и нужно соптимизить.

После генерации кода по нему проходят так называемым скользящим окном (sliding window). Суть метода в том, что рассматриваются n (размер окна) последовательных команд и по возможности они заменяются чем-то более удачным. Если замена произошла, то происходит откат на n-1 позицию. Например для окна просто подарок следующие конструкции:

push ebx
pop eax
; заменяется на
mov eax, ebx


push eax
op
; заменяется на
op
push eax
; при условии, что op не работает со стеком, или регистром eax; происходит спуск всех pushей
; таким же образом все popы по возможности поднимаются наверх, чтобы встретить там push и сократить пару


mov ebx, 10
lea eax, [ebp]-80
add eax, ebx
;заменяется на
lea eax, [ebp]-70

; И т.п.

Очень простой оптимизацией является псевдо распределение регистров. В том шаблоне для выражений, что я приводил выше, можно чередовать пары регистров eax/ebx, ecx/edx, esi/edi. Таким образом увеличится плавучесть popов и pushей, и, следовательно, их сокращаемость (они могут вообще уйти).

Сгенерировал код, посмотрел, сделал пару окон, опять сгенерировал, посмотрел, добавил еще пару (не забывай следить за очередностью – новые окна найдут себе работу только после старых). Вкупе с псевдо распределением можно получить очень даже неплохой код.

Канец, карочи. Задолбался писать. Надеюсь поможет. Удачи!

Здравствуйте, vog, Вы писали:

vog>Плагином к эксплореру

А можно и http://opendjvu.webhost.ru/ — он пошустрее будет.

... << RSDN@Home 1.1.4 beta 3 rev. 0>>

Здравствуйте, Аноним, Вы писали:

А>Здравствуйте, Аноним, Вы писали:

А>>Хочу попробовать написать простенький компилятор языка типа паскаль/с — возможно даже компилируюший

Можно вот от этого отращиваться:
http://sourceforge.net/projects/sdcc

А>Сразу оговорюсь, я не спец по компиляторам, просто приведу пример. Есть такие 8-разрядные микроконтроллеры AT90****, ATmega**** фирмы ATMEL. Эта фирма бесплатно предоставляет среду разработки, в которой есть только ассемблер.

А>Сам понимаешь, писать что-то серьезное на асме — это убийство. Для этих МК существует около десятка — двух компиляторов Си или С/С++, самый крутой, IAR, стоит как Visual Studio или даже больше

Такие вот законы рынка

А>Если что, могу помочь советами/инфой по МК.

А>Так вот, я уже года четыре или пять пользуюсь компилером Си одного румына, он его забацал в одиночку и на сегодняшний день продал более 5000 экземпляров. Цена сейчас 150 евро, я как раз в начале недели покупал, закончился годичный срок бесплатных обновлений.

Компилятор работает под DOS или Windows, или еще чем? Что представляет собой IDE к нему — графическая, или текстовая?

Меня тоже интересует рынок приложений для встроенных систем, не подскажешь, там как принято работать — в текстовом или графическом режиме на кросс-платформе?

... << RSDN@Home 1.1.3 stable >>

Здравствуйте, Аноним, Вы писали:

А>Хочу попробовать написать простенький компилятор языка типа паскаль/с — возможно даже компилируюший в "ассемблероподобные" ыбстрактные конструкции для абстрактной виртуальной машины (для простоты) что бы получше рщзобраться в процессе компиляции...

A>Трудоёмко ли это и с чего бы начать и подъёмно ли это в обозримые сроки ?
Смотря какой из тебя програмер. Работы для создания ядра примерно на выходные.

Здравствуйте, Аноним, Вы писали:

А>>>ЗЫ А чем ентот djvu кстати прочитать можно ?

DjVuReader прога на 600 К, не требуєт установки, кстати твоя книга в формате pdf занимала бы мегабайт 150, потянул бы, то-то же.
vog>>Плагином к эксплореру

А>Нарыл плагин. Штука мочная — открывает 30 окошек (у меня мозилла) браузера за первые 10 секунд работы и порывается открывать дальше, еле убил из таск менеджера

Не то что-то ты нарыл, пользуюсь DjVu с 2000-го года, а плагином к експлореру 2-й год ниразу проблем не наблюдал.

Здравствуйте, vog, Вы писали:

vog>Ты будешь смеяться, но 8 Кб памяти программ и 1Кб оперативки — это ОЧЕНЬ много в этом мире

Это тебе не 86-я серия, это RISC

Дык ведь код RISC как раз в несколько раз занимает больше места, чем аналогичный код CISC.
Что-то вы, батенька, путаете.

... << http://dkdens.narod.ru :: http://retroforth.org >>

	От:	Аноним
	Дата:	11.02.05 08:12
	Оценка:	1 (1)

	От:	Аноним
	Дата:	11.02.05 08:55
	Оценка:

	От:	wildwind
	Дата:	11.02.05 09:24
	Оценка:

	От:	Аноним
	Дата:	11.02.05 09:31
	Оценка:

	От:	Аноним
	Дата:	11.02.05 09:33
	Оценка:

От:	vog	[реклама удалена модератором]
Дата:	11.02.05 10:01
Оценка:

От:	Jenyay	http://jenyay.net
Дата:	13.02.05 06:08
Оценка:	18 (1)

	От:	SergeyGotsulyak
	Дата:	14.02.05 10:44
	Оценка:

	От:	ansi
	Дата:	12.02.05 09:03
	Оценка:	67 (12)

	От:	DJ KARIES
	Дата:	17.02.05 15:55
	Оценка: