Для всех, кто задавался вопросами о странностях языков Си и C++. Must read!
Несмотря на то, что год издания — 1995. Книга актуальна, потому что количество граблей — монотонно возрастающая функция
Главы оформлены как ветки этой темы. Разворачивайте и смотрите.
Источник: книга Стива Саммита C Frequently Asked Questions и ее перевод Язык Си в вопросах и ответах.
(нумерация глав в оригинале и переводе различна; здесь воспроизведен перевод)
(c) Steve Summit, 1995. E-mail:
(c) Крупник А.Б. Перевод с английского, 1996. E:mail:
ПРЕДИСЛОВИЕ
Некоторые вопросы появляются вновь и вновь в этой конференции. Это хорошие вопросы, и ответы на них могут быть далеко не очевидны, но каждый раз ресурсы Сети и время читателя тратятся на повторяющиеся отклики и на нудные поправки к некорректным ответам, возникновение которых неизбежно.
В этом документе, публикуемом ежемесячно, делается попытка ответить на такие вопросы ясно и кратко, чтобы обсуждения стали более плодотворными, а не возвращались постоянно к основным принципам.
Никакой список вопросов и ответов не заменит тщательного изучения хорошего учебника или справочника по языку С. Тому, кто с интересом участвует в этой конференции, должно быть также интересно прочесть одну или несколько таких книг, желательно не один раз. Качество некоторых книг и руководств по компилятору нельзя, к сожалению, назвать высоким; есть в них и попытки увековечить некоторые мифы, которые данный документ пытается развеять.
Несколько заслуживающих внимания книг по С перечислены в библиографии. Многие вопросы и ответы содержат ссылки на эти книги для дальнейшего изучения интересующимся и увлеченным читателем. (Но помните о различной нумерации документов ANSI и ISO стандартов С; см. вопрос 5.1).
Если у Вас есть вопрос, касающийся языка С, на который нет ответа в данном документе, попытайтесь получить ответ на него из перечисленных здесь книг, или спросите у знающих коллег, прежде чем использовать Сеть. Многие будут счастливы ответить на ваши вопросы, но количество повторяющихся ответов на один и тот же вопрос, как и возрастающее по мере привлечения читателей число вопросов, может стать угнетающим. Если у Вас есть вопросы или замечания по этому документу, используйте, пожалуйста, электронную почту -- эти вопросы и ответы призваны снизить нагрузку на Сеть, а не увеличить ее.
Кроме списка наиболее часто задаваемых вопросов, в этом документе суммированы наиболее часто даваемые ответы. Даже если Вы знаток языка С, полезно найти время, чтобы бегло просмотреть этот документ, и тогда Вам не придется зря тратить время в случае, когда кто-то поместил вопрос, ответ на который уже дан.
Этот документ был в последний раз изменен 1 апреля 1995 года, и за время путешествия по Сети мог сильно удалиться от своего источника — сети USENET. В данный момент он, возможно, устарел, особенно если Вы смотрите твердую копию или файл, загруженный с какого-нибудь заштатного сервера или списанный с CD-ROM. Всегда есть возможность получить последнюю редакцию этого файла
через ftp ftp.eskimo.com, rtfm.mit.edu, or ftp.uu.net (см. вопросы 17.12 и 17.33), или, послав электронной почтой сообщение "help" по адресу . (Имейте также в виду, что этот документ предназначен для свободного распространения. Вы не должны платить за него).
Можно получить и другие версии этого документа. Вместе с ним помещается сокращенная версия и (когда были изменения) список различий между текущей и предыдущей версией. Несколько предварительных гипертектовых версий документа доступны через world-wide web (WWW). Смотрите http://www.cis.ohio-state.edu/hypertext/faq/usenet/FAQ-List.html и http://www.lysator.liu.se/c/c-faq/index.html. Наконец, для тех, кто предпочитает книгу в переплете (и более подробные ответы на еще большее число вопросов!), издательство Addison-Wesley осенью 1995 опубликует книжную версию этих вопросов и ответов (ISBN 0-201-84519-9).
Работа над этим документом идет постоянно. Желательно и Ваше участие.
Комментарии направляйте по адресу scs@eskimo.com . Стив Саммит
...И, естественно, в RSDN.ru. Николай Меркин == Кодт
еще не готово
3. Выделение памяти
4. Выражения
5. ANSI C
6. Препроцессор С
7. Списки аргументов переменной длины
8. Булевы выражения и переменные
9. Структуры, перечисления и объединения
10. Декларации
11. Cтандартный ввод/вывод
12. Библиотечные функции
13. Lint
14. Стиль
15. Операции с плавающей точкой
16. Интерфейс с операционной системой
17. Разное (Пребразование Fortran -> C , грамматики для YACC и т.п.)
Эта глава обсуждает внутреннюю реализацию нулевых указателей. Для большинства, наверное, она имеет лишь академический характер, так сказать, для расширения кругозора (поскольку на популярных платформах NULL — это 0). Тем не менее, если вы натолкнулись на "странности" с нулевыми указателями — прочтите.
Здесь, естественно, не освещены вопросы абстрактных методов (синтаксис, да и смысл которых также использует нулевой указатель: virtual void ToDo() = 0; Это — особый повод для разбирательств, отчасти освещенный в вопросах 1.1
Итак, представьте себе разговор немного паникующего новичка и спокойного "гуру"
ВОПРОСЫ
1.1. Расскажите все-таки о пресловутых нулевых указателях.
1.2. Как "получить" нулевой указатель в программе?
1.3. Что такое NULL и как он определен с помощью #define?
1.4. Как #define должен определять NULL на машинах, использующих ненулевой двоичный код для внутреннего представления нулевого указателя?
1.5. Можно ли передавать функциям NULL как ((char*)0) без преобразования типа?
1.6. Я использую макрос #define Nullptr(type) (type *)0 ...
1.7. Корректно ли использовать сокращенный условный оператор if(p) для проверки того, что указатель ненулевой? А что если внутреннее представление для нулевых указателей отлично от нуля?
1.8. Если "NULL" и "0" эквивалентны, то какую форму из двух использовать?
1.9. Но не лучше ли будет использовать NULL (вместо 0) в случае, когда значение NULL изменяется, быть может, на компьютере с ненулевым внутренним представлением нулевых указателей?
1.10. Я в растерянности. Гарантируется, что NULL равен 0, а нулевой указатель нет?
1.11. Почему так много путаницы связано с нулевыми указателями? Почему так часто возникают вопросы?
1.12. Я все еще в замешательстве. Мне так и не понятна возня с нулевыми указателями.
1.13. Учитывая всю эту путаницу, связанную с нулевыми указателями, не лучше ли просто потребовать, чтобы их внутреннее представление было нулевым?
1.14. Ну а если честно, на какой-нибудь реальной машине используются ненулевые внутренние представления нулевых указателей или разные представления для указателей разных типов?
1.15. Что означает ошибка во время исполнения "null pointer assignment" (запись по нулевому адресу). Как мне ее отследить?
Вопрос: Расскажите все-таки о пресловутых нулевых указателях.
Ответ:
Для каждого типа указателей существует (согласно определению языка) особое значение — "нулевой указатель", которое отлично от всех других значений и не указывает на какой-либо объект или функцию. Таким образом, ни оператор &, ни успешный вызов malloc() никогда не приведут к появлению нулевого указателя. (malloc возвращает нулевой указатель, когда память выделить не удается, и это типичный пример использования нулевых указателей как особых величин, имеющих несколько иной смысл "память не выделена" или "теперь ни на что не указываю").
Нулевой указатель принципиально отличается от неинициализированного указателя. Известно, что нулевой указатель не ссылается ни на какой объект; неинициализированный указатель может ссылаться на что угодно.
См. также вопросы 3.1, 3.13, и 17.1.
В приведенном выше определении уже упоминалось, что существует нулевой указатель для каждого типа указателя, и внутренние значения нулевых указателей разных типов могут отличаться. Хотя программистам не обязательно знать внутренние значения, компилятору всегда необходима информация о типе указателя, чтобы различить нулевые указатели, когда это нужно (см. ниже).
Смотри: K&R I Разд. 5.4 c. 97-8; K&R II Разд. 5.4 c. 102; H&S
Разд. 5.3 c. 91; ANSI Разд. 3.2.2.3 c. 38.
Вопрос: Как "получить" нулевой указатель в программе?
Ответ:
В языке С константа 0, когда она распознается как указатель, преобразуется компилятором в нулевой указатель. То есть, если во время инициализации, присваивания или сравнения с одной стороны стоит переменная или выражение, имеющее тип указателя, компилятор решает, что константа 0 с другой стороны должна превратиться в нулевой указатель и генерирует нулевой указатель нужного типа.
Следовательно, следующий фрагмент абсолютно корректен:
char *p = 0;
if(p != 0)
Однако, аргумент, передаваемый функции, не обязательно будет распознан как значение указателя, и компилятор может оказаться не способным распознать голый 0 как нулевой указатель. Например, системный вызов UNIX "execl" использует в качестве параметров переменное количество указателей на аргументы, завершаемое нулевым указателем. Чтобы получить нулевой указатель при вызове функции, обычно необходимо явное приведение типов, чтобы 0 воспринимался как нулевой указатель.
execl("/bin/sh", "sh", "-c", "ls", (char *)0);
Если не делать преобразования (char *), компилятор не поймет, что необходимо передать нулевой указатель и вместо этого передаст число 0. (Заметьте, что многие руководства по UNIX неправильно объясняют этот пример.)
Когда прототипы функций находятся в области видимости, передача аргументов идет в соответствии с прототипом и большинство приведений типов может быть опущено, так как прототип указывает компилятору, что необходим указатель определенного типа, давая возможность правильно преобразовать нули в указатели. Прототипы функций не могут, однако, обеспечить правильное преобразование типов в случае, когда функция имеет список аргументов переменной длины, так что для таких аргументов необходимы явные преобразования типов.
Всегда безопаснее явные преобразования в нулевой указатель,
— чтобы не наткнуться на функцию с переменным числом аргументов или на функцию без прототипа,
— чтобы временно использовать не-ANSI компиляторы,
— чтобы продемонстрировать, что Вы знаете, что делаете. (Кстати, самое простое правило для запоминания.)
Итог:
Можно использовать 0 | Необходимо преобразование
---------------------------+---------------------------
инициализация | вызов функции, прототип которой
| вне области видимости
присваивание |
| переменное число аргументов
сравнение | при вызове функции
|
вызов функции, прототип |
в области видимости, |
количество аргументов |
фиксировано |
Смотри:
K&R I Разд. A7.7 c. 190, Разд. A7.14 c. 192;
K&R II Разд. A7.10 c. 207, Разд. A7.17 c. 209;
H&S Разд. 4.6.3 c. 72;
ANSI Разд. 3.2.2.3 .
Вопрос: Что такое NULL и как он определен с помощью #define?
Ответ:
Многим программистам не нравятся нули, беспорядочно разбросанные по программам.
По этой причине макрос препроцессора NULL определен в <stdio.h> или <stddef.h> как значение 0 (или (void *) 0, об этом значении поговорим позже.)
Программист, который хочет явно различать 0 как целое и 0 как нулевой указатель может использовать NULL в тех местах, где необходим нулевой указатель. Это только стилистическое соглашение; препроцессор преобразует NULL опять в 0, который затем распознается компилятором в соответствующем контексте как нулевой указатель. В отдельных случаях при передаче параметров функции, может все же потребоваться явное указание типа перед NULL (как и перед 0). (Таблица в вопросе 1.2
NULL нужно использовать только для указателей; см. вопрос 1.8.
Смотри:
K&R I Разд. 5.4 c. 97-8;
K&R II Разд. 5.4 c. 102;
H&S Разд. 13.1 c. 283;
ANSI Разд. 4.1.5 c. 99, Разд. 3.2.2.3 c. 38,
Rationale Разд. 4.1.5 c. 74.
Вопрос: Как #define должен определять NULL на машинах, использующих ненулевой двоичный код для внутреннего представления нулевого указателя?
Ответ:
Программистам нет необходимости знать внутреннее представление(я) нулевых указателей, ведь об этом обычно заботится компилятор. Если машина использует ненулевой код для представления нулевых указателей, на совести компилятора генерировать этот код, когда программист обозначает нулевой указатель как "0" или NULL.
Следовательно, определение NULL как 0 на машине, для которой нулевые указатели представляются ненулевыми значениями, так же правомерно, как и на любой другой, так как компилятор должен (и может) генерировать корректные значения нулевых указателей в ответ на 0, встретившийся в соответствующем контексте.
Вопрос: Пусть NULL был определен следующим образом:
#define NULL ((char *)0)
Ознает ли это, что функциям можно передавать NULL без преобразования типа?
Ответ:
В общем, нет. Проблема в том, что существуют компьютеры, которые используют различные внутренние представления для указателей на различные типы данных. Предложенное определение через #define годится, когда функция ожидает в качестве передаваемого параметра указатель на char, но могут возникнуть проблемы при передаче указателей на переменные других типов, а верная конструкция
FILE *fp = NULL;
может не сработать.
Тем не менее, ANSI C допускает другое определение для NULL:
#define NULL ((void *)0)
Кроме помощи в работе некорректным программам (но только в случае машин, где указатели на разные типы имеют одинаковые размеры, так что помощь здесь сомнительна) это определение может выявить программы, которые неверно используют NULL (например, когда был необходим символ ASCII NUL; см. вопрос 1.8).
Ответ:
Хотя этот трюк и популярен в определенных кругах, он стоит немного.
Он не нужен при сравнении и присваивании; см. вопрос 1.2. Он даже не экономит буквы. Его использование показывает тому, кто читает программу, что автор здорово "сечет" в нулевых указателях, и требует гораздо более аккуратной проверки определения макроса, его использования и всех остальных случаев применения указателей.
Вопрос: Корректно ли использовать сокращенный условный оператор if(p) для проверки того, что указатель ненулевой? А что если внутреннее представление для нулевых указателей отлично от нуля?
Ответ:
Когда С требует логическое значение выражения (в инструкциях if, while, for, do и для операторов &&, ||, !, и ?: ) значение false получается, когда выражение равно нулю, а значение true получается в противоположном случае. Таким образом, если написано
if(expr)
где "expr" — произвольное выражение, компилятор на самом деле поступает так, как будто было написано
if(expr != 0)
Подставляя тривиальное выражение, содержащее указатель "p" вместо "expr", получим
if(p) эквивалентно if(p != 0)
и это случай, когда происходит сравнение, так что компилятор поймет, что неявный ноль — это нулевой указатель и будет использовать правильное значение. Здесь нет никакого подвоха, компиляторы работают именно так и генерируют в обоих случаях идентичный код. Внутреннее представление указателя не имеет значения.
Оператор логического отрицания ! может быть описан так:
!expr на самом деле эквивалентно expr?0:1
Читателю предлагается в качестве упражнения показать, что
if(!p) эквивалентно if(p == 0)
Хотя "сокращения" типа if(p) совершенно корректны, кое-кто считает их использование дурным стилем.
См. также вопрос 8.2.
Смотри:
K&R II Разд. A7.4.7 c. 204;
H&S Разд. 5.3 c. 91;
ANSI Разд. 3.3.3.3, 3.3.9, 3.3.13, 3.3.14, 3.3.15, 3.6.4.1, и 3.6.5.
Вопрос: Если "NULL" и "0" эквивалентны, то какую форму из двух использовать?
Ответ:
Многие программисты верят, что "NULL" должен использоваться во всех выражениях, содержащих указатели как напоминание о том, что значение должно рассматриваться как указатель.
Другие же чувствуют, что путаница, окружающая "NULL" и "0", только усугубляется, если "0" спрятать в операторе #define и предпочитают использовать "0" вместо "NULL".
Единственного ответа не существует. Программисты на С должны понимать, что "NULL" и "0" взаимозаменяемы и что "0" без преобразования типа можно без сомнения использовать при инициализации, присваивании и сравнении.
Любое использование "NULL" (в противоположность "0" ) должно рассматриваться как ненавязчивое напоминание, что используется указатель; программистам не нужно ничего делать (как для своего собственного понимания, так и для компилятора) для того, чтобы отличать нулевые указатели от целого числа 0.
NULL нельзя использовать, когда необходим другой тип нуля. Даже если это и будет работать, с точки зрения стиля программирования это плохо.
(ANSI позволяет определить NULL с помощью
#define как (void *)0
Такое определение не позволит использовать NULL там, где не подразумеваются указатели).
Особенно не рекомендуется использовать NULL там, где требуется нулевой код ASCII (NUL). Если необходимо, напишите собственное определение
Вопрос: Но не лучше ли будет использовать NULL (вместо 0) в случае, когда значение NULL изменяется, быть может, на компьютере с ненулевым внутренним представлением нулевых указателей?
Ответ:
Нет. Хотя символические константы часто используются вместо чисел из-за того, что числа могут измениться, в данном случае причина, по которой используется NULL, иная. Еще раз повторим: язык гарантирует, что 0, встреченный там, где по контексту подразумевается указатель, будет заменен компилятором на нулевой указатель.
NULL используется только с точки зрения лучшего стиля программирования.
Он представляется с помощью...
Внутреннее (на стадии выполнения) представление нулевого указателя, которое может быть отлично от нуля и различаться для различных типов указателей. О внутреннем представлении нулевого указателя должны заботиться только создатели компилятора.
Программистам на С это представление не известно, поскольку они используют... Синтаксическое соглашение для нулевых указателей, символ "0".
Вместо него часто используют... Макрос NULL который с помощью #define определен как "0" или "(void *)0".
Наконец, нас может запутать...
Нулевой код ASCII (NUL), в котором все биты равны нулю, но который имеет мало общего с нулевым указателем, разве что названия похожи;
и...
"Нулевой стринг", или, что то же самое, пустой стринг (""). Термин "нулевой стринг" может приводить к путанице в С и, возможно, его следует избегать, так как пустой стринг включает символ '\0', но не нулевой указатель, и здесь мы уже идем по кругу...
В этом документе фраза "нулевой указатель" (null прописными буквами) используется в смысле 1, символ "0" в смысле 3, а слово "NULL", записанное большими буквами, в смысле 4.
Перекуём баги на фичи!
1.11. Почему так много путаницы с нулевыми указателями?
Вопрос: Почему так много путаницы связано с нулевыми указателями? Почему так часто возникают вопросы?
Ответ:
Программисты на С традиционно хотят знать больше, чем это необходимо для программирования, о внутреннем представлении кода.
Тот факт, что внутреннее представление нулевых указателей для большинства машин совпадает с их представлением в исходном тексте, т.е. нулем, способствует появлению неверных обобщений.
Использование макроса (NULL) предполагает, что значение может впоследствии измениться, или иметь другое значение для какого-нибудь компьютера.
Конструкция "if(p == 0)" может быть истолкована неверно, как преобразование перед сравнением p к целому типу, а не 0 к типу указателя.
Наконец, часто не замечают, что термин "null" (ноль, нулевой) употребляется в разных смыслах (перечисленных выше, см. вопрос 1.10
Хороший способ устранить путаницу — вообразить, что язык С имеет ключевое слово (возможно, nil, как в Паскале), которое обозначает нулевой указатель. Компилятор либо пребразует "nil" в нулевой указатель нужного типа, либо сообщает об ошибке, когда этого сделать нельзя. На самом деле, ключевое слово для нулевого указателя в С — это не "nil" а "0". Это ключевое слово работает всегда, за исключением случая, когда компилятор воспринимает в неподходящем контексте "0" без указания типа как целое число, равное нулю, вместо того, чтобы сообщить об ошибке. Программа может не работать, если предполагалось, что "0" без явного указания типа — это нулевой указатель.
Перекуём баги на фичи!
1.12. Мне так и не понятна возня с нулевыми указателями
Вопрос: Я все еще в замешательстве. Мне так и не понятна возня с нулевыми указателями.
Ответ:
Следуйте двум простым правилам:
1. Для обозначения в исходном тексте нулевого указателя, используйте "0" или "NULL".
2. Если "0" или "NULL" используются как фактические аргументы при вызове функции, приведите их к типу указателя, который ожидает вызываемая функция.
Остальная часть дискуссии посвящена другим заблуждениям, связанным с нулевыми указателями, внутреннему представлению нулевых указателей (которое Вам знать не обязательно), а также усовершенствованиям стандарта ANSI C.
Вопрос: Учитывая всю эту путаницу, связанную с нулевыми указателями, не лучше ли просто потребовать, чтобы их внутреннее представление было нулевым?
Ответ:
Если причина только в этом, то поступать так было бы неразумно, так как это неоправданно ограничит конкретную реализацию, которая (без таких ограничений) будет естественным образом представлять нулевые указатели специальными, отличными от нуля значениями, особенно когда эти значения автоматически будут вызывать специальные аппаратные прерывания, связанные с неверным доступом.
Кроме того, что это требование даст на практике?
Понимание нулевых указателей не требует знаний о том, нулевое или ненулевое их внутреннее представление.
Предположение о том, что внутреннее представление нулевое, не приводит к упрощению кода (за исключением некоторых случаем сомнительного использования calloc; см. вопрос 3.13).
Знание того, что внутреннее представление равно нулю, не упростит вызовы функций, так как размер указателя может быть отличным от размера указателя на int.
(Если вместо "0" для обозначения нулевого указателя использовать "nil" (см. вопрос 1.11
Вопрос: Ну а если честно, на какой-нибудь реальной машине используются ненулевые внутренние представления нулевых указателей или разные представления для указателей разных типов?
Ответ:
Серия Prime 50 использует сегмент 07777, смещение 0 для нулевого указателя, по крайней мере, для PL/I. Более поздние модели используют сегмент 0, смещение 0 для нулевых указателей С, что делает необходимыми новые инструкции, такие как TCNP (проверить нулевой указатель С), которые вводятся для совместимости с уцелевшими скверно написанными С программами, основанными на неверных предположениях. Старые машины Prime с адресацией слов были печально знамениты тем, что указатели на байты (char *) у них были большего размера, чем указатели на слова (int *).
Серия Eclipse MV корпорации Data General имеет три аппаратно поддерживаемых типа указателей (указатели на слово, байт и бит), два из которых — char * и void * используются компиляторами С. Указатель word * используется во всех других случаях.
Некоторые центральные процессоры Honeywell-Bull используют код 06000 для внутреннего представления нулевых указателей.
Серия CDC Cyber 180 использует 48-битные указатели, состоящие из кольца (ring), сегмента и смещения. Большинство пользователей (в кольце 11) имеют в качестве нулевых указателей код 0xB00000000000.
Символическая Лисп-машина с теговой архитектурой даже не имеет общеупотребительных указателей; она использует пару <NIL,0> (вообще говоря, несуществующий хендл <объект, смещение>) как нулевой указатель С.
В зависимости от модели памяти, процессоры 80x86 (IBM PC) могут использовать либо 16-битные указатели на данные и 32-битные указатели на функции, либо, наоборот, 32-битные указатели на данные и 16-битные — на функции.
Старые модели HP 3000 используют различные схемы адресации для байтов и для слов. Указатели на char и на void, имеют, следовательно, другое представление, чем указатели на int (на структуры и т.п.), даже если адрес одинаков.
Вопрос: Что означает ошибка во время исполнения "null pointer assignment" (запись по нулевому адресу). Как мне ее отследить?
Ответ:
Это сообщение появляется только в системе MS-DOS (и в DOS-сессиях под Windows -- Кодт) (см., следовательно, раздел 16) и означает, что произошла запись либо с помощью неинициализированного, либо нулевого указателя в нулевую область.
Отладчик обычно позволяет установить точку останова при доступе к нулевой области. Если это сделать нельзя, Вы можете скопировать около 20 байт из области 0 в другую и периодически проверять, не изменились ли эти данные.
Вопрос: В одном файле у меня есть описание char a[6], а в другом я объявил extern char *a. Почему это не работает?
Ответ:
Декларация extern char *a просто не совпадает с текущим определением.
Тип "Указатель-на-тип-Т" не равен типу "массив-типа-Т". Используйте extern char a[].