Здравствуйте, Аноним, Вы писали:
А>Глупый вопрос: он вообще есть?
В корейском языке используется азбука хангыль. Регистров нет.
В японском языке регистра букв нет. Но слова могут записываться несколькими эквивалентными способами — иероглифами или слоговыми азбуками (хираганой или катаканой). В частности, катакана используется иногда для выделения, КАК У НАС КАПС.
В китайском языке слова записываются иероглифами. Иероглифы могут быть традиционные или упрощённые (использование того или иного набора зависит от местности). Эквивалентные традиционные и упрощённые иероглифы могут выглядеть по-разному, но обозначаются одними и теми же кодами Unicode.
Во всех трёх языках в текстах могут встречаться иностранные слова, которые в зависимости от случая могут записываться латиницей, кириллицей, греческой азбукой или другой азбукой, имеющей понятие регистра.
Re[2]: Регистр букв в корейском, японском, китайском.
Здравствуйте, Centaur, Вы писали:
C>Здравствуйте, Аноним, Вы писали:
А>>Глупый вопрос: он вообще есть?
C>В корейском языке используется азбука хангыль. Регистров нет.
C>В японском языке регистра букв нет. Но слова могут записываться несколькими эквивалентными способами — иероглифами или слоговыми азбуками (хираганой или катаканой). В частности, катакана используется иногда для выделения, КАК У НАС КАПС.
Катакана, кстати, бывает full-width и half-width (те же символы, но половинной ширины — эти символы используются во всяких чеках, которые печатают аппараты типа кассовых), и они тоже разные уникодные коды имеют.
При этом некоторые символы, которые записываются одним символом полноширинной катаканы, будут двумя символами половиноширинной, например, グ и グ.
Именно поэтому в японском ворде в поиске есть опция "Sounds like" с двумя десятками опций — потому что больно дофига вариантов записать одно и то же (там, правда, еще и латиница учитывается, которая тоже неоднозначная)
Насчет регистра — для гласных и одной согласной (цу) есть разные варианты начертания (большие и маленькие), но они не являются регистром в нашем понимании, т.е. ァ и ア ничего общего в употреблении не имеют — маленькие буквы играют роль, аналогичную роли мягкого и твердого знака в русском языке: модифицируют звучание стоящих рядом букв.
Да, и еще катакана при использовании в алфавитном списке (типа пункты а,б,в) рисуется в кружочках — это тоже отдельные символы в уникоде типа так: ㋐.
Здравствуйте, Centaur, Вы писали:
C>В китайском языке слова записываются иероглифами. Иероглифы могут быть традиционные или упрощённые (использование того или иного набора зависит от местности).
AFAIK это зависит от страны — в КНР используются упрощенные иероглифы, а на Тайване традиционные.
C>Эквивалентные традиционные и упрощённые иероглифы могут выглядеть по-разному, но обозначаются одними и теми же кодами Unicode.
Это как?!
Я отвечаю за свои слова, а не за то как вы их интерпретируете!
Re[2]: Регистр букв в корейском, японском, китайском.
Здравствуйте, Centaur, Вы писали:
C>Во всех трёх языках в текстах могут встречаться иностранные слова, которые в зависимости от случая могут записываться латиницей, кириллицей, греческой азбукой или другой азбукой, имеющей понятие регистра.
Т.е. функции вроде CStringT::MakeLower должны по идее изменить регистр только иностранных слов?
Русский военный корабль идёт ко дну!
Re[3]: Регистр букв в корейском, японском, китайском.
Здравствуйте, qwertyuiop, Вы писали:
C>>В китайском языке слова записываются иероглифами. Иероглифы могут быть традиционные или упрощённые (использование того или иного набора зависит от местности).
Q>AFAIK это зависит от страны — в КНР используются упрощенные иероглифы, а на Тайване традиционные.
Кто скажет, что КНР и Тайвань — одна местность, пусть бросит в меня -1
C>>Эквивалентные традиционные и упрощённые иероглифы могут выглядеть по-разному, но обозначаются одними и теми же кодами Unicode.
Q>Это как?!
А вот так. Шрифты решают всё.
Re[2]: Регистр букв в корейском, японском, китайском.
Здравствуйте, Centaur, Вы писали:
C> Эквивалентные традиционные и упрощённые иероглифы могут выглядеть по-разному, но обозначаются одними и теми же кодами Unicode.
?! Как много нам открытий чудных... Зацени: 說/说, 評/评, 樂/乐... — все одним шрифтом, коды разные.
Традиционные и упрощенные иероглифы представлены в Unicode в основном вполне даже отдельно.
Отдельные коды для какого-либо иероглифа не вводятся в Unicode только тогда (и тогда все действительно будет зависеть от используемого шрифта), когда различие между традиционным и упрощенным написанием (雪) или вариантами традиционного написания (說) совершенно незначительны.
Re: Регистр букв в корейском, японском, китайском.
Здравствуйте, Centaur, Вы писали:
C>>>Эквивалентные традиционные и упрощённые иероглифы могут выглядеть по-разному, но обозначаются одними и теми же кодами Unicode.
Q>>Это как?!
C>А вот так. Шрифты решают всё.
Вы немного путаете. Это разные начертания упрощенных иероглифов решаются шрифтами. Это назвается "Han unification", ЕМНИП. Дело в том, что упрощение шло несколько разными путями в Японии, Корее и Китае. Соответственно один и тот же иероглиф мог быть упрощен в разные по начертаниям. Так вот эти разные начертания имеют один codepoint и конкретная отрисовка определяется шрифтом. А традиционные и упрощенные иероглифы всегда имею разные codepoints.
蝸牛そろそろ登れ富士の山
Re[5]: Регистр букв в корейском, японском, китайском.
Здравствуйте, jartur, Вы писали:
J> упрощение шло несколько разными путями в Японии, Корее и Китае. Соответственно один и тот же иероглиф мог быть упрощен в разные по начертаниям. Так вот эти разные начертания имеют один codepoint и конкретная отрисовка определяется шрифтом
Если только упрощение не шло настолько различными путями, что иероглифы стали совсем непохожи, тогда они также представлены отдельно.
J> А традиционные и упрощенные иероглифы всегда имею разные codepoints
Кстати, забыл сразу про еще одно обстоятельство: соответствия 1:1 между упрощенными и традиционными иероглифами просто-напросто не существует, поэтому ни о каких "одинаковых кодах" для них не может быть и речи. Например, 干 является упрощенным написанием для традиционных 乾, 幹, 榦.