Почему с точки зрения компилятора это 3 разных типа?
В стандарте ничего внятного по этому поводу нет (ну или я не смог найти) и почему это касается только (s/u) char (в чем так сказать причина)?
То что это 3 разных типа говорит нам:
N>Почему с точки зрения компилятора это 3 разных типа? N>В стандарте ничего внятного по этому поводу нет (ну или я не смог найти) и почему это касается только (s/u) char (в чем так сказать причина)? N>Более того, будет сгенрировано 2 одинаковых копии метода A<char / signed char>::foo() https://godbolt.org/g/GhGMJS
Если выбрать другой компилятор, то одинаковыми окажется другая пара char / unsigned char https://godbolt.org/g/vGhiY7c
Видимо чем считать обычный char (signed или unsigned) отдано под ответственность компилятора.
Здравствуйте, nen777w, Вы писали:
N>Почему с точки зрения компилятора это 3 разных типа?
Чтобы жизнь мёдом не казалась.
В C/C++ очень неудачная система типов. В C это не слишком чувствуется, потому что там в типы вкладывается не так много смысла, а вот в C++ это большая проблема.
N>В стандарте ничего внятного по этому поводу нет (ну или я не смог найти) и почему это касается только (s/u) char (в чем так сказать причина)?
Когда 100500 лет назад придумали C, была идея, что на некоторых машинах, в зависимости от их системы команд, будет удобнее, если char будет знаковым, а на некоторых — наоборот. Поэтому язык не определяет знаковость char'а, если она не указана явно. А про int такой идеи не было
Здравствуйте, nen777w, Вы писали:
N>Почему с точки зрения компилятора это 3 разных типа? N>В стандарте ничего внятного по этому поводу нет (ну или я не смог найти) и почему это касается только (s/u) char (в чем так сказать причина)?
3.9.1 Fundamental types 1 Objects declared as characters (char) shall be large enough to store any member of the implementation’s basic character set. If a character from this set is stored in a character object, the integral value of that character object is equal to the value of the single character literal form of that character. It is implementation defined whether a char object can hold negative values. Characters can be explicitly declared unsigned or signed. Plain char, signed char, and unsigned char are three distinct types, collectively called narrow character types. A char, a signed char, and an unsigned char occupy the same amount of storage and have the same alignment requirements (3.11); that is, they have the same object representation. For narrow character types, all bits of the object representation participate in the value representation. For unsigned narrow character types, each possible bit pattern of the value representation represents a distinct number. These requirements do not hold for other types. In any particular implementation, a plain char object can take on either the same values as a signed char or an unsigned char; which one is implementation-defined. For each value i of type unsigned char in the range 0 to 255 inclusive, there exists a value j of type char such that the result of an integral conversion (4.7) from i to char is j, and the result of an integral conversion from j to unsigned char is i.
--
Справедливость выше закона. А человечность выше справедливости.
Здравствуйте, nen777w, Вы писали:
N>Почему с точки зрения компилятора это 3 разных типа?
Потому что с точки зрения стандарта это 3 разных типа. Точнее, 2 разных типа -- signed char, unsigned char и char является синонимом к одному из двух предыдущих.
N>В стандарте ничего внятного по этому поводу нет (ну или я не смог найти)
Да ладно... Я искать конечно не буду, но там это 100% есть.
N>почему это касается только (s/u) char (в чем так сказать причина)?
Нет, это касается всех типов, которые имеют варианты signed/unsigned.
Например, int также имеет 2 типа , и int является синонимом signed int.
Здравствуйте, nen777w, Вы писали:
N>Почему с точки зрения компилятора это 3 разных типа?
Наследие С. Общего у этих типов -- одинаковое число бит и способ их (бит) хранения в памяти, что позволяет их всех троих reinterpret_cast'ить друг к другу.
Отличие в целях.
char -- буквы
signed char -- маленькие целые со знаком
unsigned char -- маленькие натуральные с нулём.
Смысл в том, что возможны и даже были реализации, где char был МЕНЬШЕ минимального адресуемого аппаратурой слова. Например 48-битная машина, ориентированная на выч.маты
И если мы работаем с байтами, как с буквами, то много чего можно соптимизировать...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Muxa, Вы писали:
M>Если выбрать другой компилятор, то одинаковыми окажется другая пара char / unsigned char M>https://godbolt.org/g/vGhiY7c
Здравствуйте, Erop, Вы писали:
E>Здравствуйте, nen777w, Вы писали:
N>>Почему с точки зрения компилятора это 3 разных типа? E>Наследие С. Общего у этих типов -- одинаковое число бит и способ их (бит) хранения в памяти, что позволяет их всех троих reinterpret_cast'ить друг к другу.
Вот как раз C, в отличие от C++, не требует чтобы char был отдельным типом:
5.2.4.2.1/2
If the value of an object of type char is treated as a signed integer when used in an expression, the value of CHAR_MIN shall be the same as that of SCHAR_MIN and the value of CHAR_MAX shall be the same as that of SCHAR_MAX. Otherwise, the value of CHAR_MIN shall be 0 and the value of CHAR_MAX shall be the same as that of UCHAR_MAX.
--
Справедливость выше закона. А человечность выше справедливости.
Здравствуйте, rg45, Вы писали:
R>Вот как раз C, в отличие от C++, не требует чтобы char был отдельным типом:
В С с типизацией вообще не строго всё. Там этот вопрос скорее теологический же.
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, uzhas, Вы писали:
N>>В стандарте ничего внятного по этому поводу нет (ну или я не смог найти)
U>как раз этот момент в стандарте довольно четко описан
Зависит от языка...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Ops, Вы писали:
Ops>Код из стартового сообщения ни на что не намекает?
Намекает, что ТС проверял в С++...
Это никак не меняет того, что в С и С++ это дело освещено по разному...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, nen777w, Вы писали:
N>Почему с точки зрения компилятора это 3 разных типа? N>В стандарте ничего внятного по этому поводу нет (ну или я не смог найти) и почему это касается только (s/u) char (в чем так сказать причина)? N>То что это 3 разных типа говорит нам: N>
N>Более того, будет сгенрировано 2 одинаковых копии метода A<char / signed char>::foo() https://godbolt.org/g/GhGMJS
Существуют архитектуры, где char по умолчанию signed char. Пример: x86-64.
Существуют архитектуры, где char по умолчанию unsigned char. Пример: Allwinner A1X.
Соответственно, знаковость char не закреплена жёстко в стандарте, а находится в зависимости от архитектуры.
Впрочем, это не объясняет, почему всё-таки 3 разных типа.
Камрад rg45 выше привёл цитату из стандарта, почему так.
Да, согласен — это противоречит элементарной логике и здравому смыслу.
Увы — этот мир несовершенен...
rg45:
R>Вот как раз C, в отличие от C++, не требует чтобы char был отдельным типом:
Всё ж-таки требует, но через одно место:
The implementation shall define char to have the same range, representation, and behavior as either signed char or unsigned char. [Footnote: CHAR_MIN, defined in <limits.h>, will have one of the values 0 or SCHAR_MIN, and this can be used to distinguish the two options. Irrespective of the choice made, char is a separate type from the other two and is not compatible with either.]
Размещение такого уточнения в сноске похоже на нарушение регламента составления стандартов (если только из нормативной части не следует, что данные типы — непременно разные), но это обстоятельство вряд ли заставит кого-то трактовать стандарт C иначе.
Как-то буквы плохо сочетаются со знаковостью...
E>signed char -- маленькие целые со знаком E>unsigned char -- маленькие натуральные с нулём.
При всем при том, по определению sizeof(char) == sizeof(signed char) == sizeof(unsigned char) == 1. Т.е., трудно будет сделать компилятор, который char'ы будет хранить с байтах (пусть и не адресуемых), а signed/unsigned char'ы в чем-то другом, более удобном для аппаратуры.
E>Смысл в том, что возможны и даже были реализации, где char был МЕНЬШЕ минимального адресуемого аппаратурой слова. Например 48-битная машина, ориентированная на выч.маты
Интересно, как в этих реализациях работала адресная арифметика на указателях на char...
E>И если мы работаем с байтами, как с буквами, то много чего можно соптимизировать...
Да, но к сожалению в Си можно поработать с char'ом, как с буквой, а потом с тем же самым char'ом, как не с буквой. И как компилятор с этим разберется?
Здравствуйте, Pzz, Вы писали:
E>>char -- буквы
Pzz>Как-то буквы плохо сочетаются со знаковостью...
Это я не понял, буквы -- это буквы. А коды букв — это коды. Коды можно выбрать такие, как удобно для реализации. Например +1 будет буква "а", а -1 — буква "А"
Это в стандартах обоих языков вообще никак не регламентируется, вроде, за исключением того, что латинский алфавит в одном регистре должен подряд идти, и цифры тоже, и то я не уверен, что такое требование есть в актуальном стандарте.
E>>signed char -- маленькие целые со знаком E>>unsigned char -- маленькие натуральные с нулём.
Pzz>При всем при том, по определению sizeof(char) == sizeof(signed char) == sizeof(unsigned char) == 1. Т.е., трудно будет сделать компилятор, который char'ы будет хранить с байтах (пусть и не адресуемых), а signed/unsigned char'ы в чем-то другом, более удобном для аппаратуры.
Это СМЫСЛ этих типов. Это ОДНИ И ТЕ ЖЕ БИТЫ. Просто их интерпретация может быть такой и другой. Но БИТЫ ТЕ ЖЕ.
В этом смысле char -- это то, как на данной платформе удобно работать с буквами, грубо говоря. А signed|unsigned char — это работа с теми же БИТАМИ, как с маленькими числами.
Pzz>Интересно, как в этих реализациях работала адресная арифметика на указателях на char...
В чём проблема? указатель на char был указателем на слово + смещение
Pzz>Да, но к сожалению в Си можно поработать с char'ом, как с буквой, а потом с тем же самым char'ом, как не с буквой. И как компилятор с этим разберется?
Провалится оптимизация (не состоится)
Но, например, зато, char'ы можно собирать в удобные строковые литералы, и они ДОЛЖНЫ уметь это делать эффективно...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Erop, Вы писали:
E>Это в стандартах обоих языков вообще никак не регламентируется, вроде, за исключением того, что латинский алфавит в одном регистре должен подряд идти, и цифры тоже, и то я не уверен, что такое требование есть в актуальном стандарте.
Не годидзе.
Согласно стандарту, функции типа getchar() возвращают символы, как unsigned char, скастированный в int. Соответственно, если какие-то буквы имеют отрицательные коды, получится нехорошо.
Pzz>>При всем при том, по определению sizeof(char) == sizeof(signed char) == sizeof(unsigned char) == 1. Т.е., трудно будет сделать компилятор, который char'ы будет хранить с байтах (пусть и не адресуемых), а signed/unsigned char'ы в чем-то другом, более удобном для аппаратуры.
E>Это СМЫСЛ этих типов. Это ОДНИ И ТЕ ЖЕ БИТЫ. Просто их интерпретация может быть такой и другой. Но БИТЫ ТЕ ЖЕ. E>В этом смысле char -- это то, как на данной платформе удобно работать с буквами, грубо говоря. А signed|unsigned char — это работа с теми же БИТАМИ, как с маленькими числами.
Char — это либо signed char, либо unsigned char, на усмотрение компилятора (хотя формально это разные типы, т.е., нельзя, к примеру, вычесть из unsigned char* из char*).
Я не могу себе, однако, представить аппаратуру, которой было бы удобнее работать со знаковыми char'ами. Поэтому я не понимаю, каким местом думали граждане-создатели C, не зафиксировав в стандарте char, как синоним к unsigned char.
Pzz>>Интересно, как в этих реализациях работала адресная арифметика на указателях на char... E>В чём проблема? указатель на char был указателем на слово + смещение
Очень неэффективно.
Pzz>>Да, но к сожалению в Си можно поработать с char'ом, как с буквой, а потом с тем же самым char'ом, как не с буквой. И как компилятор с этим разберется?
E>Провалится оптимизация (не состоится)
А когда она не провалится? В Си можно что-то сказать о судьбе переменной, только если это локальная переменная и ее адрес никуда не передается.
E>Но, например, зато, char'ы можно собирать в удобные строковые литералы, и они ДОЛЖНЫ уметь это делать эффективно...
В каком смысле, делать эффективно. Вся работа со строковыми литералами происходит в голове у компилятора. Потом они становятся просто массивами байтов.
Здравствуйте, Pzz, Вы писали:
Pzz>Не годидзе.
Pzz>Согласно стандарту, функции типа getchar() возвращают символы, как unsigned char, скастированный в int. Соответственно, если какие-то буквы имеют отрицательные коды, получится нехорошо.
Ну, тем не менее, как-то работает прямо сейчас, когда много где char знаковый...
Главное по дури 'я' за конец файла не принять
Pzz>Char — это либо signed char, либо unsigned char, на усмотрение компилятора (хотя формально это разные типы, т.е., нельзя, к примеру, вычесть из unsigned char* из char*).
В С можно. В плюсах нельзя.
Я пока не пойму, что ты хочешь сказать. Я даже не понимаю, ты пытаешься оспорить или уточнить
Pzz>Я не могу себе, однако, представить аппаратуру, которой было бы удобнее работать со знаковыми char'ами. Поэтому я не понимаю, каким местом думали граждане-создатели C, не зафиксировав в стандарте char, как синоним к unsigned char.
Ну, например, долгое время было популярно в старшем бите хранить вовсе и не знак, а контрольную сумму, это если буква с фотосчитывателя пришла, например...
Pzz>>>Интересно, как в этих реализациях работала адресная арифметика на указателях на char... E>>В чём проблема? указатель на char был указателем на слово + смещение
Pzz>Очень неэффективно.
Тратить по 6 байт на одну букву -- ещё менее эффективно же
E>>Но, например, зато, char'ы можно собирать в удобные строковые литералы, и они ДОЛЖНЫ уметь это делать эффективно...
Pzz>В каком смысле, делать эффективно. Вся работа со строковыми литералами происходит в голове у компилятора. Потом они становятся просто массивами байтов.
Это если аппаратура так умеет. А если нет?
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Erop, Вы писали:
E>В С можно. В плюсах нельзя. E>Я пока не пойму, что ты хочешь сказать. Я даже не понимаю, ты пытаешься оспорить или уточнить
Я не понимаю, зачем создатели Си оставили свободу разработчикам компилятора, делать char знаковым или нет. Впрочем, вряд ли мы узнаем ответ на этот вопрос.
Но вот в языке Go, созданным примерно теми же людми, такого балагана уже нет.
Pzz>>Очень неэффективно. E>Тратить по 6 байт на одну букву -- ещё менее эффективно же
Я слышал, что был компилятор Си для БЭСМ-6. Но мне удивительно, неужели кем-то он всерьез использовался? Все же, Си, как бы это не было кокетливо обойдено в спецификации языка, неявно предполагает, что отдельные байты в машине адресуемы, и что адресная арифметика — штука такая же быстрая, как арифметика целых чисел сравнимой разрядности...
Здравствуйте, Pzz, Вы писали:
Pzz>Я не понимаю, зачем создатели Си оставили свободу разработчикам компилятора, делать char знаковым или нет. Впрочем, вряд ли мы узнаем ответ на этот вопрос.
Потому, что на разных архитектурах было удобно так или так...
Например на архитектурах, где использовался не двоичный дополненный код, а 7 бит + бит контроля чётности, который иногда мог использоваться и как знаковый...
Pzz>Но вот в языке Go, созданным примерно теми же людми, такого балагана уже нет.
Разве Go — это попытка написать переносимый ассемблер?
Pzz>Я слышал, что был компилятор Си для БЭСМ-6. Но мне удивительно, неужели кем-то он всерьез использовался? Все же, Си, как бы это не было кокетливо обойдено в спецификации языка, неявно предполагает, что отдельные байты в машине адресуемы, и что адресная арифметика — штука такая же быстрая, как арифметика целых чисел сравнимой разрядности...
А в чём проблема с Си для БЭСМ-6? На БЭСМ-6 памяти было не богато, так что там обычно СЧИТАЛИ, и для счёта там и С хорошо годился.
Другое дело, что иногда хотелось и немного с буквами поработать, там форматированный ввод/вывод, подсказки...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Erop, Вы писали:
Pzz>>Я не понимаю, зачем создатели Си оставили свободу разработчикам компилятора, делать char знаковым или нет. Впрочем, вряд ли мы узнаем ответ на этот вопрос.
E>Потому, что на разных архитектурах было удобно так или так... E>Например на архитектурах, где использовался не двоичный дополненный код, а 7 бит + бит контроля чётности, который иногда мог использоваться и как знаковый...
Вот приведи мне пример архитектуры, где знаковый char удобнее беззнакового.
Использование старшего бита в качестве бита четности за ответ не канает, все равно у нас каждая буква имеет какой-то один определенный код.
Pzz>>Но вот в языке Go, созданным примерно теми же людми, такого балагана уже нет. E>Разве Go — это попытка написать переносимый ассемблер?
Ну сложно сказать. Go — прямой наследник Alef'а, а Alef в Plan9 — это как Си в UNIX. В Alef'е вообще нет char'а, есть только byte, и он беззнаковый.
E>А в чём проблема с Си для БЭСМ-6? На БЭСМ-6 памяти было не богато, так что там обычно СЧИТАЛИ, и для счёта там и С хорошо годился. E>Другое дело, что иногда хотелось и немного с буквами поработать, там форматированный ввод/вывод, подсказки...
Фортрановские оптимизирующие компиляторы как-то всегда получались лучше, чем Сишные, для счета.
Pzz>Вот приведи мне пример архитектуры, где знаковый char удобнее беззнакового. Pzz>Использование старшего бита в качестве бита четности за ответ не канает, все равно у нас каждая буква имеет какой-то один определенный код.
Во-первых, в те времена в ASCII было тока 7 бит.
Во-вторых, как раз оч. канает. Я, например, как-то работал, на изделии, где был аппаратный битик контроля чётности, который использовался для отладки. Типа ставишь его (оно с консоли могло ставится, переключалкой, но програмно тоже могло) и попытка переслать число с неправильной чётностью авостит тачку и можно анализировать что там не так встало. А если этот битик не теребитьставить, можно было расширить диапазон на один бит.
Тока расширять его на значимый бит было неудобно, а на знаковый удобно...
Pzz>Фортрановские оптимизирующие компиляторы как-то всегда получались лучше, чем Сишные, для счета.
Это от счёт зависит. Если речь про тупую линейную алгебру, то есть библиотеки, а если о чём-то вроде адаптивных сеток и триангуляций, то структуры таки рулят
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Erop, Вы писали:
E>Смысл в том, что возможны и даже были реализации, где char был МЕНЬШЕ минимального адресуемого аппаратурой слова.
Ты прямо сейчас за такой сидишь.