Здравствуйте, Stanislav V. Zudin, Вы писали:
vsb>>К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих. SVZ>А сортировать как будешь?
Так же как сортируют эстонский (Z после S) или турецкий (i и i-без-точки) — с учётом локали.
Здравствуйте, vsb, Вы писали:
vsb>К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих.
Бридлагав байди ищи дальши. Г бримирв, абьидинидь 'В' и 'У' — так, в латинском эти символы (V/U) долгое время обозначали одно и то же. 'О' и 'А' — всё равно практически всегда 'А' говорим. Аналогично 'Е' и 'И'. 'Б' и 'П', 'Д' и 'Т', 'З' и 'С', 'Г' и 'К' — зачем нам это ненужное разделение на звонкие/глухие? Да, твердый знак тоже не нужен, 'Ю' — тоже
В общем, пытливый ум может предложить еще много реформ
Здравствуйте, Cyberax, Вы писали:
SVZ>>А сортировать как будешь? C>Так же как сортируют эстонский (Z после S) или турецкий (i и i-без-точки) — с учётом локали.
Ну вот и получится, что русские слова будут перемешаны с английскими.
Это все правила поменяются.
Довелось как-то с ICU поработать. Даже с одной единственной "Ё" было столько канители, что ну его в баню
_____________________
С уважением,
Stanislav V. Zudin
Здравствуйте, fmiracle, Вы писали:
F>Ну тогда посмотри шрифты, например, которые эмулируют прописные буквы...
Наверно хотел написать рукописные?
А у Т проблема проявляется уже в строчных — "т" и "t"
Здравствуйте, vsb, Вы писали:
vsb>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится.
Здравствуйте, Pzz, Вы писали:
Pzz>Не только во французском. Например, бывает лук, из которого стрелают, а бывает лук, который едят. И это разные луки.
Но проблем для сортировки при этом нет.
Здравствуйте, vsb, Вы писали:
vsb>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
Куда хуже "С", она, сука, еще и на одной кнопке.
Переубедить Вас, к сожалению, мне не удастся, поэтому сразу перейду к оскорблениям.
Здравствуйте, vsb, Вы писали:
vsb>Кириллица это алфавит на основе латинницы (а точнее оба алфавита произошли от греческого).
Так то на основе (греческого). А вот большинство европейских это есть латиница, но некоторые с дополнительными буквами, и казахский это и есть кириллица, но есть буквы, которых нет в русском алфавите.
Здравствуйте, sambl74, Вы писали:
S>Здравствуйте, vsb, Вы писали:
vsb>>смысл в том, чтобы отличать английский Top (верх) от русского Тор-а (бог)
S>Давно бублик богом стал :-D?
Здравствуйте, Mihas, Вы писали:
M>Где-то я такое уже видел. Русские буквы насильно заменялись латинскими, если начертание совпадает. M>Уж не с оформлением ли паспорта было связано...
Я такое встречал, когда интегрировался с казахстанской железной дорогой. Правда думал, что это они упоролись, а тут прочитал, что это какая-то старинная кодировка. Возможно какой-то старый советский софт стоял, который и в России где-нибудь стоит.
Здравствуйте, pagid, Вы писали:
vsb>>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные. P>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится.
Да, такое бывает. Поэтому to upper/lower case нужно делать с правильной локалью.
PS моё предложение хорошо ещё тем, что научило бы русских программистов правильно работать с юникодом. А то расслабились совсем.