Здравствуйте, vsb, Вы писали:
vsb>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
Куда хуже "С", она, сука, еще и на одной кнопке.
Переубедить Вас, к сожалению, мне не удастся, поэтому сразу перейду к оскорблениям.
Здравствуйте, vsb, Вы писали:
vsb>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
vsb>К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих.
А сортировать как будешь?
_____________________
С уважением,
Stanislav V. Zudin
Здравствуйте, vsb, Вы писали:
vsb>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
Было. ДКОИ-8, кодировка ЕС ЭВМ. См. там "Совмещение букв".
vsb>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны.
Потому что шрифт и смысл тех символов, которые шрифт отображает, — это две большие разницы. И ожидается, что программы будут работать со смыслом символов, а не с их начертаниями. Идиотизм с кодировками мир уже прошел в 80е-90е-начало-2000х и возвращаться к нему не хочет по вполне понятным причинам.
Ты предлагаешь не просто плохую кодировку, а худшую из возможных, которая даже близко не позволяет иметь в тексте различимые кодом слова более, чем на одном языке. Как человек, которому приходилось в начале-середине 2000-х выводить на экран и в документы тексты, содержащие русский, английский и турецкий, ответственно заявляю: Юникод — лучшее, что произошло в развитии компьютеров.
Здравствуйте, vsb, Вы писали:
vsb>К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих.
Бридлагав байди ищи дальши. Г бримирв, абьидинидь 'В' и 'У' — так, в латинском эти символы (V/U) долгое время обозначали одно и то же. 'О' и 'А' — всё равно практически всегда 'А' говорим. Аналогично 'Е' и 'И'. 'Б' и 'П', 'Д' и 'Т', 'З' и 'С', 'Г' и 'К' — зачем нам это ненужное разделение на звонкие/глухие? Да, твердый знак тоже не нужен, 'Ю' — тоже
В общем, пытливый ум может предложить еще много реформ
Здравствуйте, vsb, Вы писали:
vsb>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
Регулярки в помощь. А вообще нормальные среды умеют подсвечивать не латиницу.
vsb>К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих.
Поизучайте unicode вообще волосы на подмышках зашевеляться.
Здравствуйте, vsb, Вы писали:
vsb>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится.
Здравствуйте, Pavel Dvorkin, Вы писали:
PD>Сортировать — это полбеды, если знать, что именно тут. А вот как узнать ?
Да, без контекста не узнаешь.
PD>Иду я как-то по городу в 90-е годы (а тогда вывесок на английском было полно, потом стало поменьше) и вижу надпись на здании MEXA PD>Хм. MEXA . На каком это языке ? Английском ? Нехарактерное какое-то окончание "A". На каком тогда ? И что это такое ? PD>Через секунду доходит. Никакое это не таинственное MEXA, а просто МЕХА.
Несколько лет назад по соцсетям ходила байка:
Еду, вижу — на фасаде здания вывеска: "ДОМ ГОТОВ". Ломаю голову, это что же получается, только готы будут жить? Потом доходит, что дом готОв...
_____________________
С уважением,
Stanislav V. Zudin
Здравствуйте, Mamut, Вы писали:
vsb>>>К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих.
vsb>>И это в твоём любимом юникоде.
M>И? Что тебе не нравится? Ты 10 апреля 2020-го года впервые узнал, что есть алфавиты на основе латиницы, алфавиты на основе кириллицы и вообще различные алфавиты?
Кириллица это алфавит на основе латинницы (а точнее оба алфавита произошли от греческого).
Здравствуйте, pagid, Вы писали:
vsb>>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные. P>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится.
Да, такое бывает. Поэтому to upper/lower case нужно делать с правильной локалью.
PS моё предложение хорошо ещё тем, что научило бы русских программистов правильно работать с юникодом. А то расслабились совсем.
Здравствуйте, Stanislav V. Zudin, Вы писали:
vsb>>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
vsb>>К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих.
SVZ>А сортировать как будешь?
По специальным таблицам, зависящим от локали, так же, как и сейчас это происходит. Но аргумент принят, спасибо, как минимум смысл в том, чтобы отличать английский Top (верх) от русского Тор-а (бог). Хотя опять же наверняка можно найти случаи, когда в каком-нибудь французском одно слово пишется идентично другому английскому, но имеет разное значение и ничего, живут и сортируют как-то.
Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих.
Здравствуйте, vsb, Вы писали:
vsb>Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских?
В чём здесь разумность? Полно языков отличающихся от латинского абсолютно всеми буквами. А ещё есть такое понятие как кодировка. Это предложение создать ещё одну кодировку, но вот такую странную, которой никто пользоваться не будет.
vsb>Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
У меня редактор kate показывает английский алфавит обычным шрифтом, а русский жирным, так что я сразу вижу какой символ какому алфавиту принадлежит. Нормальные люди создали бы программу, которая отлавливает ошибки использования в одном слове символов из различных алфавитов, а не стали бы пытаться внедрить другую кодировку.
Здравствуйте, Mamut, Вы писали:
M>И? То, что они не отличаются в компьютерных шрифтах, говорит только о том, что компьютеры в целом убили понятие типографики. И, вдобавок, у тебя внезапно на ровном месте появляется дополнительные сложности для обработки таких текстов:
Логичный Юникод можно было бы делать двумя фундаментально разными способами:
1. Объединить графически одинаковые символы в одном коде. Затем для преобразования строчных в прописные буквы использовать языково-специфичные таблицы (которые всё равно нужны).
2. Разделить каждый национальный алфавит в свой диапазон. Т.е. чтобы польская A отличалась от латинской A, а китайский "喝" отличался от японского "喝" (который я даже сюда скопировать не могу, оно заменяется на китайский).
Но в итоге получилась смесь всего со всем, в которой нереально разобраться без пары кубов очень крепкого наркотика.
Здравствуйте, Nuzhny, Вы писали:
N>Ещё есть украинский язык, в котором звук "ы" обозначается буквой "и", а звук "и" буквой "i". Это какой алфавит?
Это вариант кириллицы с буквой "i". Как оно там звучит к теме отношения не имеет.
Здравствуйте, Mamut, Вы писали:
M>То есть ты предлагаешь вручную вбивать весь алфавит? Ладно, простейший случай ты криво, но решил. Что будем делать с сортировкой?
Ты будешь смеяться, для сортировки украинских фамилий в алфавитном порядке я вбивал руками украинский алфавит. Точнее, строил таблицу:
А Б В Г Д Е Є ... я
1 2 3 4 5 6 7 ... 70
Каждой букве ставил в соответствие число. Потому что иначе пришлось бы делать весьма нетривиальную обработку букв ЄєІіЇї, которые стоят в стороне. Кстати, с буквой Ё та же история.
Причем сортировка по такой таблице еще и не очень тормозила.
Веселее было другое. Я в то время встречал не меньше трех вариантов кодировки украинского языка. Попробуй импорт данных в таких условиях сделать.
vsb>>К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих.
vsb>И это в твоём любимом юникоде.
И? Что тебе не нравится? Ты 10 апреля 2020-го года впервые узнал, что есть алфавиты на основе латиницы, алфавиты на основе кириллицы и вообще различные алфавиты?
PD>>Через секунду доходит. Никакое это не таинственное MEXA, а просто МЕХА. E>Смутно припоминаю какой-то популярный во время оно типа греческий бурдо-коньяк с похожим названием...
Здравствуйте, Mamut, Вы писали:
vsb>>Я имею в виду те буквы, которые не отличаются: AАBВEЕKКMМHНOОPРCСTТXХaаeеoоpрcсyуxх
M>И? То, что они не отличаются в компьютерных шрифтах, говорит только о том, что компьютеры в целом убили понятие типографики.
Ну и ладно.
M>И, вдобавок, у тебя внезапно на ровном месте появляется дополнительные сложности для обработки таких текстов:
M>- B это заглавная от б или b? M>- T это заглавная от t или т? M>- P — это «эр» или «пэ»?
Не представляю задач, когда мне это может понадобиться.
M>Это не говоря о диком усложнении программ на ровном месте.
Нет никакого усложнения. Всё остаётся ровно так же, как сейчас (если нормально поддерживать интернационализацию, а не только для русского и английского).
M>При том, что уже сейчас средний программист не может нормально обработать ситуации с «ё»: https://i.imgur.com/SMv1728.png
А в моём варианте сможет. Это "удобная" русская кодировка провоцирует писать такой код. Не было бы её, не было бы такого кода.
M>Это не говоря о том, что у тебя исключительно «западный» взгляд на вещи. Предлагаешь, например, так же объединить:
M>- Փ ARMENIAN CAPITAL LETTER PIWR M>- օ ARMENIAN SMALL LETTER OH M>- ০ BENGALI DIGIT ZERO M>- ৪ BENGALI DIGIT FOUR M>- 𑄽 CHAKMA DIGIT SEVEN M>- ᱛ OL CHIKI LETTER AT M>- ᳃ SUNDANESE PUNCTUATION BINDU CAKRA M>- ᩅ TAI THAM LETTER WA M>- ቀ ETHIOPIC SYLLABLE QA M>- Ᏼ CHEROKEE LETTER YV M>- Ꭲ CHEROKEE LETTER I M>- Ꭼ CHEROKEE LETTER GV M>- Ꭺ CHEROKEE LETTER GO
Думаю, каждый случай нужно рассматривать отдельно. В целом да, если два символа рисуются идентично, они должны использовать один код. Ещё, кстати, букву "ё" как букву с отдельным кодом тоже надо выкинуть. Правильная ё должна получаться через "е" + U+0308: "ё".
Здравствуйте, vsb, Вы писали:
vsb>К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих.
Подумал тут вот о чем.
А зачем заглавным буквам отдельные коды?
Ведь по большому счету, 'a' и 'A' это одна и та же буква.
А то что буква заглавная — это лишь вариант начертания, ничем не отличающийся от таких вариантов как bold, italic, underline, subscript, superscript и т.д. У italic шрифтов для некоторых букв начертание может отличаться даже сильнее, чем у заглавной от строчной.
По сути, заглавные буквы — это наследие ASCII, когда не было еще разделения между символами и кодовыми точками.
Заглавные буквы это особенность европейских языков. В китайских и других иероглифах заглавных букв нет.
Но в тех же европейских языках была "буквица" — когда первая буква главы писалась еще более крупным шрифтом и даже украшалась. Это явление того же порядка что и заглавные буквы как таковые, просто следующий уровень.
Нет такого преступления, на которое не пошло бы суверенное родоплеменное быдло ради продления своего бессмысленного рода и распространения своего бессмысленного генома.
Здравствуйте, vsb, Вы писали:
vsb>>>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
SVZ>>А сортировать как будешь?
vsb>По специальным таблицам, зависящим от локали, так же, как и сейчас это происходит. Но аргумент принят, спасибо, как минимум смысл в том, чтобы отличать английский Top (верх) от русского Тор-а (бог).
Да, выделенное портит всю малину.
ЗЫ. Тор это не только бог но еще и пончик.
_____________________
С уважением,
Stanislav V. Zudin
Здравствуйте, vsb, Вы писали:
vsb>По специальным таблицам, зависящим от локали, так же, как и сейчас это происходит. Но аргумент принят, спасибо, как минимум смысл в том, чтобы отличать английский Top (верх) от русского Тор-а (бог). Хотя опять же наверняка можно найти случаи, когда в каком-нибудь французском одно слово пишется идентично другому английскому, но имеет разное значение и ничего, живут и сортируют как-то.
Не только во французском. Например, бывает лук, из которого стрелают, а бывает лук, который едят. И это разные луки.
Здравствуйте, Mihas, Вы писали:
M>Где-то я такое уже видел. Русские буквы насильно заменялись латинскими, если начертание совпадает. M>Уж не с оформлением ли паспорта было связано...
Я такое встречал, когда интегрировался с казахстанской железной дорогой. Правда думал, что это они упоролись, а тут прочитал, что это какая-то старинная кодировка. Возможно какой-то старый советский софт стоял, который и в России где-нибудь стоит.
vsb>Да, такое бывает. Поэтому to upper/lower case нужно делать с правильной локалью.
Ты предлагаешь, чтобы в тексте, к каждой букве была прописана отдельная локаль?
vsb>PS моё предложение хорошо ещё тем, что научило бы русских программистов правильно работать с юникодом. А то расслабились совсем.
Здравствуйте, Cyberax, Вы писали:
P>>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится. C>В турецком именно так, строчная i в заглавной форме — İ.
Ну вот в турецком праздник и получился. То, что результат upper case i зависит от локали — это танец на граблях.
Здравствуйте, Pavel Dvorkin, Вы писали:
PD>Через секунду доходит. Никакое это не таинственное MEXA, а просто МЕХА.
Смутно припоминаю какой-то популярный во время оно типа греческий бурдо-коньяк с похожим названием...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Mihas, Вы писали:
M>Где-то я такое уже видел. Русские буквы насильно заменялись латинскими, если начертание совпадает. M>Уж не с оформлением ли паспорта было связано...
Был под MS-DOS какой-то дебильный, но популярный редактор, который некоторые коды русских букв использовал, как служебный символы, для какой-то разметки, что ли. И там эти буквы были как раз такие, что у них были латинские "близнецы". И при локализации на русский, ничего умнее не придумали, чем автоматом заменять в русских текстах Н на H
Я помню, даже специальную программку накропал, что бы эти замены в русских словах находить и обратно тексты "расколдовывать"
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
M>>А какие решения ты предложишь? В турецком «и-с-точкой» (читается как «и») и «и-без-точки» (читается, как «ы») — две абсолютно разные буквы, со всем вытекающим.
E>Ну иметь ДВЕ турецкие буквы "турецкая и с точкой" и "турецкая и без точки", так же, как есть русская О, латинская O, и ещё 0 в придачу... E>Или есть латинская l и 1
Да, это было бы решением.
E>Почему было и туркам не завести ДВЕ новые свои буквы и не страдать с перекодировками и сменами регистра?
Здравствуйте, Mamut, Вы писали:
M>>>При том, что уже сейчас средний программист не может нормально обработать ситуации с «ё»: https://i.imgur.com/SMv1728.png
vsb>>А в моём варианте сможет. Это "удобная" русская кодировка провоцирует писать такой код. Не было бы её, не было бы такого кода.
M>Расскажи, как твой вариант помог бы. У тебя же буквы будут рандомно раскиданы повсюду.
Помог бы тем, что наивный код вида 'А' <= ch && ch <= 'Я' не сработал бы сразу и разработчику сразу пришлось бы думать о правильном подходе.
Здравствуйте, vsb, Вы писали:
vsb>К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих.
Ещё есть украинский язык, в котором звук "ы" обозначается буквой "и", а звук "и" буквой "i". Это какой алфавит?
Здравствуйте, Privalov, Вы писали:
P>Ты будешь смеяться, для сортировки украинских фамилий в алфавитном порядке я вбивал руками украинский алфавит. Точнее, строил таблицу:
С KOI8-R, кстати, иначе и нельзя было, она ж АБЦДЕФ расположена по кодам.
Здравствуйте, Dair, Вы писали:
D>С KOI8-R, кстати, иначе и нельзя было, она ж АБЦДЕФ расположена по кодам.
Сейчас, правда, можно обойтись чем-то типа indexof, тогда же это было дорого, поэтому я выкручивался таблицей. А может, просто не дотумкал.
D>Хорошо что всё это в прошлом!
Конечно, Зато, зная это прошлое, мы, в случае необходимости, не будем ждать милостей от ОС и окружения.
Здравствуйте, vsb, Вы писали:
M>>И, вдобавок, у тебя внезапно на ровном месте появляется дополнительные сложности для обработки таких текстов:
M>>- B это заглавная от б или b? M>>- T это заглавная от t или т? M>>- P — это «эр» или «пэ»?
vsb>Не представляю задач, когда мне это может понадобиться.
Здравствуйте, vsb, Вы писали:
vsb>Я имею в виду те буквы, которые не отличаются: AАBВEЕKКMМHНOОPРCСTТXХaаeеoоpрcсyуxх
Присмотритесь внимательно к начертаниям, например, русской К и латинской K, в разных шрифтах без засечек. Они отличаются и существенно. Неужто уже позабывали как "нормальные" русские глифы выглядят?
Здравствуйте, Erop, Вы писали:
E>Был под MS-DOS какой-то дебильный, но популярный редактор, который некоторые коды русских букв использовал, как служебный символы, для какой-то разметки, что ли.
Вспомнил! С быквами для разметки я не сталкивался. Были редакторы, которые просто не принимали некоторые коды кириллицы. Почему-то в память врезался код 224 (буква р). Возможно, были еще. Эти коды совпадали с рассшиеррыми кодами (стрелки, pgup/pgdn). Norton Editor этим страдал, помню. QEdit 2.07 тоже. В 2.08 его починили.
В FoxPro 2.0 с этим же столкнулись. Поправили только в 2.6. Тогда еще ходили рекомендации, где и что пропатчить в том же Norton Editor-е, чтобы решить проблему. Нужно было один байт в определенном месте обнулить. С ForPro такое не прокатывало, там таблицы динамически формировались.
P.S. Могу где-то напутать с названиями программ. И не могу утверждать на верняка, что были коды помимо 224. Но буква р доставила нам в свое время немало головняка.
Здравствуйте, Erop, Вы писали:
E>Был под MS-DOS какой-то дебильный, но популярный редактор, который некоторые коды русских букв использовал, как служебный символы, для какой-то разметки, что ли. И там эти буквы были как раз такие, что у них были латинские "близнецы". И при локализации на русский, ничего умнее не придумали, чем автоматом заменять в русских текстах Н на H
GoldEd же... Фидошный редактор... Но его давно уже вылечили...
Здравствуйте, kov_serg, Вы писали:
_>Регулярки в помощь.
Ну когда знаешь, что проблема в этом, то как бы и проблема уже на 90% решена. Вопрос в том, чтобы осознать, что какой-то нехороший человек сделал такую подставу.
_>А вообще нормальные среды умеют подсвечивать не латиницу.
Так мне похожие надо, а не все. В данном случае не поможет, у меня эти символы в строке были, а не в идентификаторе (и вообще не в проекте, а в отдельном файле, на него инспекции идея не показывает).
Здравствуйте, Mamut, Вы писали:
vsb>>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны.
M>Потому что шрифт и смысл тех символов, которые шрифт отображает, — это две большие разницы. И ожидается, что программы будут работать со смыслом символов, а не с их начертаниями. Идиотизм с кодировками мир уже прошел в 80е-90е-начало-2000х и возвращаться к нему не хочет по вполне понятным причинам.
M>Ты предлагаешь не просто плохую кодировку, а худшую из возможных, которая даже близко не позволяет иметь в тексте различимые кодом слова более, чем на одном языке. Как человек, которому приходилось в начале-середине 2000-х выводить на экран и в документы тексты, содержащие русский, английский и турецкий, ответственно заявляю: Юникод — лучшее, что произошло в развитии компьютеров.
vsb>К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих.
Здравствуйте, Stanislav V. Zudin, Вы писали:
vsb>>К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих. SVZ>А сортировать как будешь?
Так же как сортируют эстонский (Z после S) или турецкий (i и i-без-точки) — с учётом локали.
Здравствуйте, Cyberax, Вы писали:
SVZ>>А сортировать как будешь? C>Так же как сортируют эстонский (Z после S) или турецкий (i и i-без-точки) — с учётом локали.
Ну вот и получится, что русские слова будут перемешаны с английскими.
Это все правила поменяются.
Довелось как-то с ICU поработать. Даже с одной единственной "Ё" было столько канители, что ну его в баню
_____________________
С уважением,
Stanislav V. Zudin
Здравствуйте, fmiracle, Вы писали:
F>Ну тогда посмотри шрифты, например, которые эмулируют прописные буквы...
Наверно хотел написать рукописные?
А у Т проблема проявляется уже в строчных — "т" и "t"
Здравствуйте, Pzz, Вы писали:
Pzz>Не только во французском. Например, бывает лук, из которого стрелают, а бывает лук, который едят. И это разные луки.
Но проблем для сортировки при этом нет.
Здравствуйте, vsb, Вы писали:
vsb>Кириллица это алфавит на основе латинницы (а точнее оба алфавита произошли от греческого).
Так то на основе (греческого). А вот большинство европейских это есть латиница, но некоторые с дополнительными буквами, и казахский это и есть кириллица, но есть буквы, которых нет в русском алфавите.
Здравствуйте, sambl74, Вы писали:
S>Здравствуйте, vsb, Вы писали:
vsb>>смысл в том, чтобы отличать английский Top (верх) от русского Тор-а (бог)
S>Давно бублик богом стал :-D?
SVZ>Довелось как-то с ICU поработать. Даже с одной единственной "Ё" было столько канители, что ну его в баню
Потому что ё стоит не в ряде а-я, а за его пределами ICU, наверное, чуть ли не единственная библиотека, которая умеет в сортировки всего и вся, учитывая все особенности.
SVZ>>Довелось как-то с ICU поработать. Даже с одной единственной "Ё" было столько канители, что ну его в баню
M>Потому что ё стоит не в ряде а-я, а за его пределами ICU, наверное, чуть ли не единственная библиотека, которая умеет в сортировки всего и вся, учитывая все особенности.
Не так уж и хорошо умеет, как оказалось.
Почти год назад сортировка у многих языков не соответствовала стандарту. Может чего поправили, но я не проверял.
_____________________
С уважением,
Stanislav V. Zudin
SVZ>Не так уж и хорошо умеет, как оказалось. SVZ>Почти год назад сортировка у многих языков не соответствовала стандарту. Может чего поправили, но я не проверял.
Здравствуйте, Marty, Вы писали:
M>Здравствуйте, sambl74, Вы писали:
M>>>А английский верх?
S>>Ну вообще видимо давно, если даже гугл транслейт про это знает: S>>Image: top.png
M>И где тут про стал богом?
Здравствуйте, pagid, Вы писали:
P>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится.
В турецком именно так, строчная i в заглавной форме — İ.
P>>>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится. C>>В турецком именно так, строчная i в заглавной форме — İ.
K>Ну вот в турецком праздник и получился. То, что результат upper case i зависит от локали — это танец на граблях.
А какие решения ты предложишь? В турецком «и-с-точкой» (читается как «и») и «и-без-точки» (читается, как «ы») — две абсолютно разные буквы, со всем вытекающим.
И таких букв почти в каждом языке — до черта. Собственно, «и-с-точкой», немецкая эсцет и несколько других букв используются в качестве проверки, правильно языки и библиотеки работают со строками. Справляются далеко не все
Здравствуйте, Mamut, Вы писали:
P>>>>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится. C>>>В турецком именно так, строчная i в заглавной форме — İ.
K>>Ну вот в турецком праздник и получился. То, что результат upper case i зависит от локали — это танец на граблях.
M>А какие решения ты предложишь? В турецком «и-с-точкой» (читается как «и») и «и-без-точки» (читается, как «ы») — две абсолютно разные буквы, со всем вытекающим.
Так очень просто. Дать туркам свои собственные i и I, не мешая всё их в кучу с латиницей. Тут же вся тема об этом. В кириллице тоже некоторые буквы в некоторых регистрах с латиницей совпадают. И вполне можно было бы такую же путаницу организовать. Но не стали почему-то.
Здравствуйте, Kerk, Вы писали:
K>Так очень просто. Дать туркам свои собственные i и I, не мешая всё их в кучу с латиницей. Тут же вся тема об этом. В кириллице тоже некоторые буквы в некоторых регистрах с латиницей совпадают. И вполне можно было бы такую же путаницу организовать. Но не стали почему-то.
Скорее по историческим причинам — русский алфавит всё-таки сильно отличается в целом от английского или греческого. В теории, сейчас это могло бы решиться альтернативными вариантами символов, но первый Юникод проектировался до них.
K>Так очень просто. Дать туркам свои собственные i и I, не мешая всё их в кучу с латиницей.
Это да, было бы решением
K>Тут же вся тема об этом. В кириллице тоже некоторые буквы в некоторых регистрах с латиницей совпадают. И вполне можно было бы такую же путаницу организовать. Но не стали почему-то.
Хе-хе. Мы тут чутка спорим про латиницу-кириллицу, а в Юникоде есть CJK Там вообще политические баталии и обиды на уровне целых стран.
Здравствуйте, vsb, Вы писали:
vsb>Я такое встречал, когда интегрировался с казахстанской железной дорогой. Правда думал, что это они упоролись, а тут прочитал, что это какая-то старинная кодировка. Возможно какой-то старый советский софт стоял, который и в России где-нибудь стоит.
В какой-то начальный момент российская система госзакупок была написана обычными парнями, которые про плохое не думали.
Ушлые чиновники догадались устраивать конкурсы на "Aвтомoбиль" (выделил латинские буквы), ну чтобы только свои побеждали.
В результате вроде сделали патч, который это фиксит.
Здравствуйте, vsb, Вы писали:
vsb>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
Ну, например, во всех шрифтах, которые я видел маленькие версии букв Tt Тт и Tt Тm отличаются. Последняя, кстати, похожа на m, а не на t...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Mamut, Вы писали:
PD>>>Через секунду доходит. Никакое это не таинственное MEXA, а просто МЕХА. E>>Смутно припоминаю какой-то популярный во время оно типа греческий бурдо-коньяк с похожим названием...
M>https://ru.wikipedia.org/wiki/Метакса
Точно -- ОН!!!
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Erop, Вы писали:
vsb>>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
E>Ну, например, во всех шрифтах, которые я видел маленькие версии букв Tt Тт и Tt Тm отличаются. Последняя, кстати, похожа на m, а не на t...
Я имею в виду те буквы, которые не отличаются: AАBВEЕKКMМHНOОPРCСTТXХaаeеoоpрcсyуxх
vsb>Я имею в виду те буквы, которые не отличаются: AАBВEЕKКMМHНOОPРCСTТXХaаeеoоpрcсyуxх
И? То, что они не отличаются в компьютерных шрифтах, говорит только о том, что компьютеры в целом убили понятие типографики. И, вдобавок, у тебя внезапно на ровном месте появляется дополнительные сложности для обработки таких текстов:
— B это заглавная от б или b?
— T это заглавная от t или т?
— P — это «эр» или «пэ»?
Это не говоря о диком усложнении программ на ровном месте. При том, что уже сейчас средний программист не может нормально обработать ситуации с «ё»: https://i.imgur.com/SMv1728.png
Это не говоря о том, что у тебя исключительно «западный» взгляд на вещи. Предлагаешь, например, так же объединить:
— Փ ARMENIAN CAPITAL LETTER PIWR
— օ ARMENIAN SMALL LETTER OH
— ০ BENGALI DIGIT ZERO
— ৪ BENGALI DIGIT FOUR
— 𑄽 CHAKMA DIGIT SEVEN
— ᱛ OL CHIKI LETTER AT
— ᳃ SUNDANESE PUNCTUATION BINDU CAKRA
— ᩅ TAI THAM LETTER WA
— ቀ ETHIOPIC SYLLABLE QA
— Ᏼ CHEROKEE LETTER YV
— Ꭲ CHEROKEE LETTER I
— Ꭼ CHEROKEE LETTER GV
— Ꭺ CHEROKEE LETTER GO
и т.п.? Ну, на а чо. Пишутся одинаково (или почти одинаково), еще и наверняка из одного алфавита произошли или основаны друг на друге, да.
Здравствуйте, vsb, Вы писали:
vsb>Я имею в виду те буквы, которые не отличаются: AАBВEЕKКMМHНOОPРCСTТXХaаeеoоpрcсyуxх
То есть ещё и коды маленьких и больших будут нерегулярно связаы?
Может ну её лесом, эту реформу?
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Erop, Вы писали:
vsb>>Я имею в виду те буквы, которые не отличаются: AАBВEЕKКMМHНOОPРCСTТXХaаeеoоpрcсyуxх
E>То есть ещё и коды маленьких и больших будут нерегулярно связаы?
Да, так же, как и в некоторых других языках.
E>Может ну её лесом, эту реформу?
Здравствуйте, pagid, Вы писали:
P>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится.
Почему только Т?
Hh vs Нн
Rr vs Гг
Yy vs Уу
И это ещё без курсивных написаний. Там "Т" может и рекордсмен по путанице будет
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, vsb, Вы писали:
vsb>PS моё предложение хорошо ещё тем, что научило бы русских программистов правильно работать с юникодом.
История показывает, что насильно учить русских чему-то, чему они учиться не хотят -- занятие пустое, и чреватое гибелью от меча...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Cyberax, Вы писали:
P>>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится. C>В турецком именно так, строчная i в заглавной форме — İ.
Вот хрень какая-то и вышла. А была бы у турок своя и такая и своя и сякая. И было бы им счастье...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Mamut, Вы писали:
M>А какие решения ты предложишь? В турецком «и-с-точкой» (читается как «и») и «и-без-точки» (читается, как «ы») — две абсолютно разные буквы, со всем вытекающим.
Ну иметь ДВЕ турецкие буквы "турецкая и с точкой" и "турецкая и без точки", так же, как есть русская О, латинская O, и ещё 0 в придачу...
Или есть латинская l и 1
Почему было и туркам не завести ДВЕ новые свои буквы и не страдать с перекодировками и сменами регистра?
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, vsb, Вы писали:
vsb>К примеру в казахском языке используются русские буквы плюс 9 своих, никто эти русские буквы в таблице символов не дублирует. Вроде бы то же самое относится к европейским языкам, там тоже используются латинские буквы + несколько своих.
Кайне проблемен. Как только смёржишь 0 с латинской O большой и 1 с латинской l малой, так сразу и приходи.
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Mihas, Вы писали:
M>Здравствуйте, vsb, Вы писали:
M>Где-то я такое уже видел. Русские буквы насильно заменялись латинскими, если начертание совпадает.
В FIDO?!
M>>При том, что уже сейчас средний программист не может нормально обработать ситуации с «ё»: https://i.imgur.com/SMv1728.png
vsb>А в моём варианте сможет. Это "удобная" русская кодировка провоцирует писать такой код. Не было бы её, не было бы такого кода.
Расскажи, как твой вариант помог бы. У тебя же буквы будут рандомно раскиданы повсюду.
Здравствуйте, Mamut, Вы писали:
M>Не турки это вводили
А вот это хороший ответ.
В отличии от турок, кириллические-то кодировки вводили советские, так как было удобно им, а не американцам
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
M>>Расскажи, как твой вариант помог бы. У тебя же буквы будут рандомно раскиданы повсюду.
vsb>Помог бы тем, что наивный код вида 'А' <= ch && ch <= 'Я' не сработал бы сразу и разработчику сразу пришлось бы думать о правильном подходе.
Ну и расскажи мне, каким будет правильный подход в условиях, когда буквы рандомно раскиданы по всему алфавиту?
Здравствуйте, Mamut, Вы писали:
M>>>Расскажи, как твой вариант помог бы. У тебя же буквы будут рандомно раскиданы повсюду.
vsb>>Помог бы тем, что наивный код вида 'А' <= ch && ch <= 'Я' не сработал бы сразу и разработчику сразу пришлось бы думать о правильном подходе.
M>Ну и расскажи мне, каким будет правильный подход в условиях, когда буквы рандомно раскиданы по всему алфавиту?
vsb>>>Помог бы тем, что наивный код вида 'А' <= ch && ch <= 'Я' не сработал бы сразу и разработчику сразу пришлось бы думать о правильном подходе.
M>>Ну и расскажи мне, каким будет правильный подход в условиях, когда буквы рандомно раскиданы по всему алфавиту?
vsb>
Здравствуйте, Mamut, Вы писали:
vsb>>>>Помог бы тем, что наивный код вида 'А' <= ch && ch <= 'Я' не сработал бы сразу и разработчику сразу пришлось бы думать о правильном подходе.
M>>>Ну и расскажи мне, каким будет правильный подход в условиях, когда буквы рандомно раскиданы по всему алфавиту?
vsb>>
M>То есть ты предлагаешь вручную вбивать весь алфавит?
Ну вообще я рассчитывал, что в Java это есть из коробки, но не нашёл. Возможно надо подключить библиотеку ICU, лень смотреть, никогда с ней не работал.
> Ладно, простейший случай ты криво, но решил.
Здравствуйте, Cyberax, Вы писали:
C>Но в итоге получилась смесь всего со всем, в которой нереально разобраться без пары кубов очень крепкого наркотика.
Получилась вполне логичная смесь основанная на предыдущей практике. Не без недостатков и проблем, но минимизируя их.
Польскую "А" не никакого смысла отделять от латинской "А" потому как польский алфавит это вариант латиницы, а её варианты, отличаются друг от друга лишь наличием (да и то не так уж и часто) дополнительных букв. С кириллицей все точно так же, но иногда дополнительных букв побольше. С китайским и японским ничего не скажу, для меня они лишь выглядят чуть по разному, но возможно это решается шрифтами с разным начертанием.
Здравствуйте, Privalov, Вы писали:
P>Если он куплен в Греции, то вполне приличный напиток. А если за ее пределами, то можно на стекломой в красивой упаковке нарваться.
Всё так, но смысл брать в Греции метаксу, когда всюду есть узо?
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Privalov, Вы писали:
P>Узо — это что-то типа водки, не? И зачем водку тащить? Своей нету что ли? К тому же водка — это не мое.
Куда тащить?
P>А еще есть ракия, которая тоже иногда бывает ничего. Если на разлив.
Ракия -- это такая смягчённая версия узо.
P>Но вообще-то речь шла собственно о напитке, а не зачем его покупать.
Речь шла о "Метаксе, если её покупать в Греции". Я вот не понимаю, если ты уже в Греции, то зачем там покупать Метаксу вместо узо.
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Erop, Вы писали:
E>Речь шла о "Метаксе, если её покупать в Греции". Я вот не понимаю, если ты уже в Греции, то зачем там покупать Метаксу вместо узо.
Я писал раньше:
Если он куплен в Греции, то вполне приличный напиток. А если за ее пределами, то можно на стекломой в красивой упаковке нарваться.
Потому что хочется иногда и дома попить нормальной Метаксы, а не того стекломоя, которым торгуют в ближайшей лавке.
Здравствуйте, Mamut, Вы писали:
M>Это все напитки с анисом (мерзкая гадость, на мой вкус). Где с добавлением сахара, где без
Все эти кодировки, оказывается, сложны до такой степени, что без бутылки не разберешься. Да еще содержимое имеет значение.
M>Греция: узо и M>Болгария: ракия и мастика
В Болгарии мне очень нравился "Сълнчев бряг". Я когда-то привез из Велико-Тырново пару бутылок. Он тоже не имел ничего общего с тем пойлом, которым торговали в ближайшей лавке. Даже этикетки разные.
Здравствуйте, Ops, Вы писали:
Ops>Что было в палатках, то и глотали. Мы болгарскому (или какая там страна декларировалась?) не обучены, в правописание не вникали.
Видимо, мне больше повезло. Еще в школе с нами болгары учились. Их родители на каких-то объектах работали. От них мы узнали, что "Ъ" — это О краткое.
А в Болгарии все прекрасно понимали русский. В принципе, можно разобрать болгарский, если говорят медленно. Единственное, что сносило крышу, это когда они на "да" качают головой, а на "нет" — кивают.
Здравствуйте, Privalov, Вы писали:
P>Видимо, мне больше повезло. Еще в школе с нами болгары учились. Их родители на каких-то объектах работали. От них мы узнали, что "Ъ" — это О краткое.
А мне не довелось изучить письменный. Вроде ту бормотуху еще и с латиницей в названии продавали, и я сейчас не вспомню, как именно все варианты писались. Помню только, что она не сразу стала совсем не питьевой.
P>А в Болгарии все прекрасно понимали русский. В принципе, можно разобрать болгарский, если говорят медленно. Единственное, что сносило крышу, это когда они на "да" качают головой, а на "нет" — кивают.
Это разговорный.
Переубедить Вас, к сожалению, мне не удастся, поэтому сразу перейду к оскорблениям.
Здравствуйте, Privalov, Вы писали:
P>Потому что хочется иногда и дома попить нормальной Метаксы, а не того стекломоя, которым торгуют в ближайшей лавке.
Во-о-от. Тебе она таки нравится. А меня буржуем за что-то обзывают... "С" == справедливость...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Ops, Вы писали:
Ops>А мне не довелось изучить письменный. Вроде ту бормотуху еще и с латиницей в названии продавали, и я сейчас не вспомню, как именно все варианты писались. Помню только, что она не сразу стала совсем не питьевой.
Да помню. Я как-то взял бутылку, не очень внимательно рассмотрев этикетку. Испытал шок. Потом уже сравнил с настоящей, из Болгарии.
Из письменного болгарского я только "Ъ" знаю. Произведения Богомила Райнова я читал в русском и украинском переводах.
Здравствуйте, vsb, Вы писали:
vsb>Здравствуйте, kov_serg, Вы писали:
vsb>>>Idea умеет?
_>>Settings > Inspections > Internationalization > Non-ASCII characters
vsb>Так мне похожие надо, а не все. В данном случае не поможет, у меня эти символы в строке были, а не в идентификаторе (и вообще не в проекте, а в отдельном файле, на него инспекции идея не показывает).
Здравствуйте, Mystic Artifact, Вы писали:
MA>Здравствуйте, vsb, Вы писали:
vsb>>Я имею в виду те буквы, которые не отличаются: AАBВEЕKКMМHНOОPРCСTТXХaаeеoоpрcсyуxх MA> Присмотритесь внимательно к начертаниям, например, русской К и латинской K, в разных шрифтах без засечек. Они отличаются и существенно. Неужто уже позабывали как "нормальные" русские глифы выглядят?
Некорректно, потому что зависит от шрифтов. В одних различается, в других нет. Различаться не обязаны. Более того, 99% читающих через секунду уже не вспомнят, что было различие, они смотрят на букву, а оформление воздействует только косвенно.
Здравствуйте, Privalov, Вы писали:
P>Ты будешь смеяться, для сортировки украинских фамилий в алфавитном порядке я вбивал руками украинский алфавит. Точнее, строил таблицу: P>
P>А Б В Г Д Е Є ... я
P>1 2 3 4 5 6 7 ... 70
P>
P>Каждой букве ставил в соответствие число. Потому что иначе пришлось бы делать весьма нетривиальную обработку букв ЄєІіЇї, которые стоят в стороне. Кстати, с буквой Ё та же история.
Я код для основного диапазона умножал на 10 (А — 10, Б — 20, итд), а буквы типа єї получали смещённые числа.
Было хорошо, кроме того, что "ь" приходилось перемещать, одно время был нормой порядок алфавита, где он после "я".
P>Причем сортировка по такой таблице еще и не очень тормозила. P>Веселее было другое. Я в то время встречал не меньше трех вариантов кодировки украинского языка. Попробуй импорт данных в таких условиях сделать.
Здравствуйте, Cyberax, Вы писали:
C>Логичный Юникод можно было бы делать двумя фундаментально разными способами: C>1. Объединить графически одинаковые символы в одном коде. Затем для преобразования строчных в прописные буквы использовать языково-специфичные таблицы (которые всё равно нужны). C>2. Разделить каждый национальный алфавит в свой диапазон. Т.е. чтобы польская A отличалась от латинской A, а китайский "喝" отличался от японского "喝" (который я даже сюда скопировать не могу, оно заменяется на китайский).
Завтра канонинизируют какой-нибудь нижнеморавский — ему тоже полностью свои буквы вводить?
C>Но в итоге получилась смесь всего со всем, в которой нереально разобраться без пары кубов очень крепкого наркотика.
Второй вариант точно был бы хуже. Первый — надо подумать, но что свои грабли есть — к гадалке не ходи.
Здравствуйте, netch80, Вы писали:
N>Я код для основного диапазона умножал на 10 (А — 10, Б — 20, итд), а буквы типа єї получали смещённые числа.
Да? ЕМНИП, эти буквы находились в теблице после "я". Соответственно при умножении они все равно остались бы на своих местах. Или я чего-то не понял.
N>Было хорошо, кроме того, что "ь" приходилось перемещать, одно время был нормой порядок алфавита, где он после "я".
Это да, в украинском алфавите "ь" — последняя буква. Но этот факт я проигнорировал, там все прокатывало почти незаметно. В глаза не бросалось. С ЄЇ все было заметно хуже.
Здравствуйте, Privalov, Вы писали:
N>>Я код для основного диапазона умножал на 10 (А — 10, Б — 20, итд), а буквы типа єї получали смещённые числа.
P>Да? ЕМНИП, эти буквы находились в теблице после "я". Соответственно при умножении они все равно остались бы на своих местах. Или я чего-то не понял.
Для єї... номера менялись — если е это 60 потому что 6*10, то є получало 65 по подстановке, и т.д. На самом деле брались коды CP866 после приведения регистра, так что там были коды типа 2130 для е (213*10) и 2135 для є.
N>>Было хорошо, кроме того, что "ь" приходилось перемещать, одно время был нормой порядок алфавита, где он после "я".
P>Это да, в украинском алфавите "ь" — последняя буква.
Здравствуйте, Stanislav V. Zudin, Вы писали:
SVZ>Не так уж и хорошо умеет, как оказалось. SVZ>Почти год назад сортировка у многих языков не соответствовала стандарту. Может чего поправили, но я не проверял.
Кстати, стандарт сортировки бывает очень разным. Например, в испанском языке ch — отдельная буква, так что ch будет после, например, cr.
Здравствуйте, vsb, Вы писали:
vsb>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.
К и Д например — что с ними делать?
Что делать с рукописными шрифтами.
Цель не ограничивать бессмысленно разработчиков шрифта. А не исключение "ситуаций".
Этот аккаунт покинут.
Re: Хрен с ним с буквами. Зачем столько переводов строк?