Регистр букв в корейском, японском, китайском. - Проблемы перевода

Здравствуйте, Аноним, Вы писали:

А>Глупый вопрос: он вообще есть?

В корейском языке используется азбука хангыль. Регистров нет.

В японском языке регистра букв нет. Но слова могут записываться несколькими эквивалентными способами — иероглифами или слоговыми азбуками (хираганой или катаканой). В частности, катакана используется иногда для выделения, КАК У НАС КАПС.

В китайском языке слова записываются иероглифами. Иероглифы могут быть традиционные или упрощённые (использование того или иного набора зависит от местности). Эквивалентные традиционные и упрощённые иероглифы могут выглядеть по-разному, но обозначаются одними и теми же кодами Unicode.

Во всех трёх языках в текстах могут встречаться иностранные слова, которые в зависимости от случая могут записываться латиницей, кириллицей, греческой азбукой или другой азбукой, имеющей понятие регистра.

Здравствуйте, Centaur, Вы писали:

C>Здравствуйте, Аноним, Вы писали:

А>>Глупый вопрос: он вообще есть?

C>В корейском языке используется азбука хангыль. Регистров нет.

C>В японском языке регистра букв нет. Но слова могут записываться несколькими эквивалентными способами — иероглифами или слоговыми азбуками (хираганой или катаканой). В частности, катакана используется иногда для выделения, КАК У НАС КАПС.

Катакана, кстати, бывает full-width и half-width (те же символы, но половинной ширины — эти символы используются во всяких чеках, которые печатают аппараты типа кассовых), и они тоже разные уникодные коды имеют.
При этом некоторые символы, которые записываются одним символом полноширинной катаканы, будут двумя символами половиноширинной, например, グ и ｸﾞ.

Именно поэтому в японском ворде в поиске есть опция "Sounds like" с двумя десятками опций — потому что больно дофига вариантов записать одно и то же

(там, правда, еще и латиница учитывается, которая тоже неоднозначная)

Насчет регистра — для гласных и одной согласной (цу) есть разные варианты начертания (большие и маленькие), но они не являются регистром в нашем понимании, т.е. ァ и ア ничего общего в употреблении не имеют — маленькие буквы играют роль, аналогичную роли мягкого и твердого знака в русском языке: модифицируют звучание стоящих рядом букв.

Да, и еще катакана при использовании в алфавитном списке (типа пункты а,б,в) рисуется в кружочках — это тоже отдельные символы в уникоде

типа так: ㋐.

Здравствуйте, Centaur, Вы писали:

C>В китайском языке слова записываются иероглифами. Иероглифы могут быть традиционные или упрощённые (использование того или иного набора зависит от местности).

AFAIK это зависит от страны — в КНР используются упрощенные иероглифы, а на Тайване традиционные.

C>Эквивалентные традиционные и упрощённые иероглифы могут выглядеть по-разному, но обозначаются одними и теми же кодами Unicode.

Это как?!

Здравствуйте, Centaur, Вы писали:

C>Во всех трёх языках в текстах могут встречаться иностранные слова, которые в зависимости от случая могут записываться латиницей, кириллицей, греческой азбукой или другой азбукой, имеющей понятие регистра.

Т.е. функции вроде CStringT::MakeLower должны по идее изменить регистр только иностранных слов?

Здравствуйте, qwertyuiop, Вы писали:

C>>В китайском языке слова записываются иероглифами. Иероглифы могут быть традиционные или упрощённые (использование того или иного набора зависит от местности).

Q>AFAIK это зависит от страны — в КНР используются упрощенные иероглифы, а на Тайване традиционные.

Кто скажет, что КНР и Тайвань — одна местность, пусть бросит в меня -1

C>>Эквивалентные традиционные и упрощённые иероглифы могут выглядеть по-разному, но обозначаются одними и теми же кодами Unicode.

Q>Это как?!

А вот так. Шрифты решают всё.

Здравствуйте, Centaur, Вы писали:

C> Эквивалентные традиционные и упрощённые иероглифы могут выглядеть по-разному, но обозначаются одними и теми же кодами Unicode.

?! Как много нам открытий чудных... Зацени: 說/说, 評/评, 樂/乐... — все одним шрифтом, коды разные.
Традиционные и упрощенные иероглифы представлены в Unicode в основном вполне даже отдельно.

Отдельные коды для какого-либо иероглифа не вводятся в Unicode только тогда (и тогда все действительно будет зависеть от используемого шрифта), когда различие между традиционным и упрощенным написанием (雪) или вариантами традиционного написания (說) совершенно незначительны.

В хирагане есть регистр.

Здравствуйте, dashin, Вы писали:

D>В хирагане есть регистр.

Значки различного размера для некоторых знаков хираганы — это еще не регистр, они несут различную фонетическую нагрузку и в норме не взаимозаменяемы.

Все, что здесь сказано, может и будет использоваться против меня.

Здравствуйте, Centaur, Вы писали:

C>>>Эквивалентные традиционные и упрощённые иероглифы могут выглядеть по-разному, но обозначаются одними и теми же кодами Unicode.

Q>>Это как?!

C>А вот так. Шрифты решают всё.

Вы немного путаете. Это разные начертания упрощенных иероглифов решаются шрифтами. Это назвается "Han unification", ЕМНИП. Дело в том, что упрощение шло несколько разными путями в Японии, Корее и Китае. Соответственно один и тот же иероглиф мог быть упрощен в разные по начертаниям. Так вот эти разные начертания имеют один codepoint и конкретная отрисовка определяется шрифтом. А традиционные и упрощенные иероглифы всегда имею разные codepoints.

Здравствуйте, jartur, Вы писали:

J> упрощение шло несколько разными путями в Японии, Корее и Китае. Соответственно один и тот же иероглиф мог быть упрощен в разные по начертаниям. Так вот эти разные начертания имеют один codepoint и конкретная отрисовка определяется шрифтом

Если только упрощение не шло настолько различными путями, что иероглифы стали совсем непохожи, тогда они также представлены отдельно.

J> А традиционные и упрощенные иероглифы всегда имею разные codepoints

Кстати, забыл сразу про еще одно обстоятельство: соответствия 1:1 между упрощенными и традиционными иероглифами просто-напросто не существует, поэтому ни о каких "одинаковых кодах" для них не может быть и речи. Например, 干 является упрощенным написанием для традиционных 乾, 幹, 榦.

	От:	Аноним
	Дата:	01.08.09 10:30
	Оценка:

	От:	Centaur
	Дата:	01.08.09 19:34
	Оценка:	4 (1)

От:	jazzer	Skype: enerjazzer
Дата:	03.08.09 03:58
Оценка:	32 (3)

	От:	qwertyuiop
	Дата:	03.08.09 04:07
	Оценка:	+1

	От:	Alexander G
	Дата:	03.08.09 10:12
	Оценка:

	От:	Alex Reyst
	Дата:	10.08.09 10:24
	Оценка:	10 (2) +1

От:	dashin	http://andrewdashin.com
Дата:	11.08.09 18:43
Оценка:	-2

От:	jartur	http://jartur.l-square.net; http://twitter.com/sirjartur
Дата:	28.08.09 03:31
Оценка:	14 (1) +1