vsb>Да, такое бывает. Поэтому to upper/lower case нужно делать с правильной локалью.
Ты предлагаешь, чтобы в тексте, к каждой букве была прописана отдельная локаль?
vsb>PS моё предложение хорошо ещё тем, что научило бы русских программистов правильно работать с юникодом. А то расслабились совсем.
SVZ>Довелось как-то с ICU поработать. Даже с одной единственной "Ё" было столько канители, что ну его в баню
Потому что ё стоит не в ряде а-я, а за его пределами ICU, наверное, чуть ли не единственная библиотека, которая умеет в сортировки всего и вся, учитывая все особенности.
SVZ>>Довелось как-то с ICU поработать. Даже с одной единственной "Ё" было столько канители, что ну его в баню
M>Потому что ё стоит не в ряде а-я, а за его пределами ICU, наверное, чуть ли не единственная библиотека, которая умеет в сортировки всего и вся, учитывая все особенности.
Не так уж и хорошо умеет, как оказалось.
Почти год назад сортировка у многих языков не соответствовала стандарту. Может чего поправили, но я не проверял.
_____________________
С уважением,
Stanislav V. Zudin
SVZ>Не так уж и хорошо умеет, как оказалось. SVZ>Почти год назад сортировка у многих языков не соответствовала стандарту. Может чего поправили, но я не проверял.
Здравствуйте, Marty, Вы писали:
M>Здравствуйте, sambl74, Вы писали:
M>>>А английский верх?
S>>Ну вообще видимо давно, если даже гугл транслейт про это знает: S>>Image: top.png
M>И где тут про стал богом?
Здравствуйте, pagid, Вы писали:
P>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится.
В турецком именно так, строчная i в заглавной форме — İ.
Здравствуйте, Cyberax, Вы писали:
P>>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится. C>В турецком именно так, строчная i в заглавной форме — İ.
Ну вот в турецком праздник и получился. То, что результат upper case i зависит от локали — это танец на граблях.
P>>>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится. C>>В турецком именно так, строчная i в заглавной форме — İ.
K>Ну вот в турецком праздник и получился. То, что результат upper case i зависит от локали — это танец на граблях.
А какие решения ты предложишь? В турецком «и-с-точкой» (читается как «и») и «и-без-точки» (читается, как «ы») — две абсолютно разные буквы, со всем вытекающим.
И таких букв почти в каждом языке — до черта. Собственно, «и-с-точкой», немецкая эсцет и несколько других букв используются в качестве проверки, правильно языки и библиотеки работают со строками. Справляются далеко не все
Здравствуйте, Mamut, Вы писали:
P>>>>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится. C>>>В турецком именно так, строчная i в заглавной форме — İ.
K>>Ну вот в турецком праздник и получился. То, что результат upper case i зависит от локали — это танец на граблях.
M>А какие решения ты предложишь? В турецком «и-с-точкой» (читается как «и») и «и-без-точки» (читается, как «ы») — две абсолютно разные буквы, со всем вытекающим.
Так очень просто. Дать туркам свои собственные i и I, не мешая всё их в кучу с латиницей. Тут же вся тема об этом. В кириллице тоже некоторые буквы в некоторых регистрах с латиницей совпадают. И вполне можно было бы такую же путаницу организовать. Но не стали почему-то.
Здравствуйте, Kerk, Вы писали:
K>Так очень просто. Дать туркам свои собственные i и I, не мешая всё их в кучу с латиницей. Тут же вся тема об этом. В кириллице тоже некоторые буквы в некоторых регистрах с латиницей совпадают. И вполне можно было бы такую же путаницу организовать. Но не стали почему-то.
Скорее по историческим причинам — русский алфавит всё-таки сильно отличается в целом от английского или греческого. В теории, сейчас это могло бы решиться альтернативными вариантами символов, но первый Юникод проектировался до них.
K>Так очень просто. Дать туркам свои собственные i и I, не мешая всё их в кучу с латиницей.
Это да, было бы решением
K>Тут же вся тема об этом. В кириллице тоже некоторые буквы в некоторых регистрах с латиницей совпадают. И вполне можно было бы такую же путаницу организовать. Но не стали почему-то.
Хе-хе. Мы тут чутка спорим про латиницу-кириллицу, а в Юникоде есть CJK Там вообще политические баталии и обиды на уровне целых стран.
Здравствуйте, vsb, Вы писали:
vsb>Я такое встречал, когда интегрировался с казахстанской железной дорогой. Правда думал, что это они упоролись, а тут прочитал, что это какая-то старинная кодировка. Возможно какой-то старый советский софт стоял, который и в России где-нибудь стоит.
В какой-то начальный момент российская система госзакупок была написана обычными парнями, которые про плохое не думали.
Ушлые чиновники догадались устраивать конкурсы на "Aвтомoбиль" (выделил латинские буквы), ну чтобы только свои побеждали.
В результате вроде сделали патч, который это фиксит.
Здравствуйте, Pavel Dvorkin, Вы писали:
PD>Через секунду доходит. Никакое это не таинственное MEXA, а просто МЕХА.
Смутно припоминаю какой-то популярный во время оно типа греческий бурдо-коньяк с похожим названием...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, vsb, Вы писали:
vsb>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
Ну, например, во всех шрифтах, которые я видел маленькие версии букв Tt Тт и Tt Тm отличаются. Последняя, кстати, похожа на m, а не на t...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
PD>>Через секунду доходит. Никакое это не таинственное MEXA, а просто МЕХА. E>Смутно припоминаю какой-то популярный во время оно типа греческий бурдо-коньяк с похожим названием...
Здравствуйте, Mamut, Вы писали:
PD>>>Через секунду доходит. Никакое это не таинственное MEXA, а просто МЕХА. E>>Смутно припоминаю какой-то популярный во время оно типа греческий бурдо-коньяк с похожим названием...
M>https://ru.wikipedia.org/wiki/Метакса
Точно -- ОН!!!
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Erop, Вы писали:
vsb>>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
E>Ну, например, во всех шрифтах, которые я видел маленькие версии букв Tt Тт и Tt Тm отличаются. Последняя, кстати, похожа на m, а не на t...
Я имею в виду те буквы, которые не отличаются: AАBВEЕKКMМHНOОPРCСTТXХaаeеoоpрcсyуxх
vsb>Я имею в виду те буквы, которые не отличаются: AАBВEЕKКMМHНOОPРCСTТXХaаeеoоpрcсyуxх
И? То, что они не отличаются в компьютерных шрифтах, говорит только о том, что компьютеры в целом убили понятие типографики. И, вдобавок, у тебя внезапно на ровном месте появляется дополнительные сложности для обработки таких текстов:
— B это заглавная от б или b?
— T это заглавная от t или т?
— P — это «эр» или «пэ»?
Это не говоря о диком усложнении программ на ровном месте. При том, что уже сейчас средний программист не может нормально обработать ситуации с «ё»: https://i.imgur.com/SMv1728.png
Это не говоря о том, что у тебя исключительно «западный» взгляд на вещи. Предлагаешь, например, так же объединить:
— Փ ARMENIAN CAPITAL LETTER PIWR
— օ ARMENIAN SMALL LETTER OH
— ০ BENGALI DIGIT ZERO
— ৪ BENGALI DIGIT FOUR
— 𑄽 CHAKMA DIGIT SEVEN
— ᱛ OL CHIKI LETTER AT
— ᳃ SUNDANESE PUNCTUATION BINDU CAKRA
— ᩅ TAI THAM LETTER WA
— ቀ ETHIOPIC SYLLABLE QA
— Ᏼ CHEROKEE LETTER YV
— Ꭲ CHEROKEE LETTER I
— Ꭼ CHEROKEE LETTER GV
— Ꭺ CHEROKEE LETTER GO
и т.п.? Ну, на а чо. Пишутся одинаково (или почти одинаково), еще и наверняка из одного алфавита произошли или основаны друг на друге, да.