Здравствуйте, Аноним, Вы писали:
А>Еще вопрос. Что означает физически что символы исходного файла отображаются на множество базовых символов (т.е. mapped in implementation-dependend manner into basic source character set) и что означает "символы новой строки добавляются, если это необходимо"?
А>Что за символы не из базового набора могут быть в файле (т.е. я имею в виду те символы, которые должны заменяться на universal character name либо на internal encoding)?
Это означает, что во входном файле символы могут быть записаны как-то по другому (например, в другой кодировке, где есть не все символы из базовго набора но, но есть и другие символы, которые преобразуются в недостающие символы базового набора). Т.е. при такой формулировке реализация может почти что угодно преобразовывать во что угодно, обычно ничего из этого делать не нужно. А вот с концом строк все просто: по стандарту это один символ, но в DOS например, это два символа, поэтому требуется такое преобразование для того чтобы дальше был одиночный псевдосимвол
конец-строки. Пример символов не из базового набора — это русские симоволы