А зачем русским буквам отдельные символы? - Компьютерные священные войны

vsb>Кириллица это алфавит на основе латинницы

Что ты несешь

vsb>(а точнее оба алфавита произошли от греческого).

Из того, что оба алфавита произошли от греческого, никак не следует, что кириллица — алфавит на основе латиницы.

vsb>Да, такое бывает. Поэтому to upper/lower case нужно делать с правильной локалью.

Ты предлагаешь, чтобы в тексте, к каждой букве была прописана отдельная локаль?

vsb>PS моё предложение хорошо ещё тем, что научило бы русских программистов правильно работать с юникодом. А то расслабились совсем.

Что ты несешь.

SVZ>Довелось как-то с ICU поработать. Даже с одной единственной "Ё" было столько канители, что ну его в баню

Потому что ё стоит не в ряде а-я, а за его пределами

ICU, наверное, чуть ли не единственная библиотека, которая умеет в сортировки всего и вся, учитывая все особенности.

Здравствуйте, Mamut, Вы писали:

SVZ>>Довелось как-то с ICU поработать. Даже с одной единственной "Ё" было столько канители, что ну его в баню

M>Потому что ё стоит не в ряде а-я, а за его пределами

ICU, наверное, чуть ли не единственная библиотека, которая умеет в сортировки всего и вся, учитывая все особенности.

Не так уж и хорошо умеет, как оказалось.
Почти год назад сортировка у многих языков не соответствовала стандарту. Может чего поправили, но я не проверял.

SVZ>Не так уж и хорошо умеет, как оказалось.
SVZ>Почти год назад сортировка у многих языков не соответствовала стандарту. Может чего поправили, но я не проверял.

Они емнип отстают по реализации, это да.

Здравствуйте, Marty, Вы писали:

M>Здравствуйте, sambl74, Вы писали:

M>>>А английский верх?

S>>Ну вообще видимо давно, если даже гугл транслейт про это знает:
S>>Image: top.png

M>И где тут про стал богом?

Это ответ на твой "А английский верх".

Здравствуйте, Mr.Delphist, Вы писали:

MD>Скандинавы смотрят на sambl74 с удивлением.

Да, один из их богов — бублик. Удивительно

Здравствуйте, pagid, Вы писали:

P>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится.
В турецком именно так, строчная i в заглавной форме — İ.

Здравствуйте, Cyberax, Вы писали:

P>>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится.
C>В турецком именно так, строчная i в заглавной форме — İ.

Ну вот в турецком праздник и получился. То, что результат upper case i зависит от локали — это танец на граблях.

P>>>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится.
C>>В турецком именно так, строчная i в заглавной форме — İ.

K>Ну вот в турецком праздник и получился. То, что результат upper case i зависит от локали — это танец на граблях.

А какие решения ты предложишь? В турецком «и-с-точкой» (читается как «и») и «и-без-точки» (читается, как «ы») — две абсолютно разные буквы, со всем вытекающим.

И таких букв почти в каждом языке — до черта. Собственно, «и-с-точкой», немецкая эсцет и несколько других букв используются в качестве проверки, правильно языки и библиотеки работают со строками. Справляются далеко не все

Здравствуйте, Mamut, Вы писали:

P>>>>То есть прописные "Т" должны совпадать, а строчные "т" и "t" быть разными. Это просто праздник какой-то получится.
C>>>В турецком именно так, строчная i в заглавной форме — İ.

K>>Ну вот в турецком праздник и получился. То, что результат upper case i зависит от локали — это танец на граблях.

M>А какие решения ты предложишь? В турецком «и-с-точкой» (читается как «и») и «и-без-точки» (читается, как «ы») — две абсолютно разные буквы, со всем вытекающим.

Так очень просто. Дать туркам свои собственные i и I, не мешая всё их в кучу с латиницей. Тут же вся тема об этом. В кириллице тоже некоторые буквы в некоторых регистрах с латиницей совпадают. И вполне можно было бы такую же путаницу организовать. Но не стали почему-то.

Здравствуйте, Kerk, Вы писали:

K>Так очень просто. Дать туркам свои собственные i и I, не мешая всё их в кучу с латиницей. Тут же вся тема об этом. В кириллице тоже некоторые буквы в некоторых регистрах с латиницей совпадают. И вполне можно было бы такую же путаницу организовать. Но не стали почему-то.
Скорее по историческим причинам — русский алфавит всё-таки сильно отличается в целом от английского или греческого. В теории, сейчас это могло бы решиться альтернативными вариантами символов, но первый Юникод проектировался до них.

С китайским, кстати, таки альтернативные написания пришлось использовать. Например, символ (喝 — "пить") рисуется немного по-разному в японской и китайской локали, хотя имеет тот же код. См.: https://en.wiktionary.org/wiki/%E5%96%9D#Kanji и https://en.wiktionary.org/wiki/%E5%96%9D#Han_character

K>Так очень просто. Дать туркам свои собственные i и I, не мешая всё их в кучу с латиницей.

Это да, было бы решением

K>Тут же вся тема об этом. В кириллице тоже некоторые буквы в некоторых регистрах с латиницей совпадают. И вполне можно было бы такую же путаницу организовать. Но не стали почему-то.

Хе-хе. Мы тут чутка спорим про латиницу-кириллицу, а в Юникоде есть CJK

Там вообще политические баталии и обиды на уровне целых стран.

Здравствуйте, vsb, Вы писали:

vsb>Я такое встречал, когда интегрировался с казахстанской железной дорогой. Правда думал, что это они упоролись, а тут прочитал, что это какая-то старинная кодировка. Возможно какой-то старый советский софт стоял, который и в России где-нибудь стоит.

В какой-то начальный момент российская система госзакупок была написана обычными парнями, которые про плохое не думали.

Ушлые чиновники догадались устраивать конкурсы на "Aвтомoбиль" (выделил латинские буквы), ну чтобы только свои побеждали.

В результате вроде сделали патч, который это фиксит.

Здравствуйте, Pavel Dvorkin, Вы писали:

PD>Через секунду доходит. Никакое это не таинственное MEXA, а просто МЕХА.
Смутно припоминаю какой-то популярный во время оно типа греческий бурдо-коньяк с похожим названием...

Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском

Здравствуйте, vsb, Вы писали:

vsb>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.

Ну, например, во всех шрифтах, которые я видел маленькие версии букв Tt Тт и Tt Тm отличаются. Последняя, кстати, похожа на m, а не на t...

PD>>Через секунду доходит. Никакое это не таинственное MEXA, а просто МЕХА.
E>Смутно припоминаю какой-то популярный во время оно типа греческий бурдо-коньяк с похожим названием...

https://ru.wikipedia.org/wiki/Метакса

Здравствуйте, Mamut, Вы писали:

PD>>>Через секунду доходит. Никакое это не таинственное MEXA, а просто МЕХА.
E>>Смутно припоминаю какой-то популярный во время оно типа греческий бурдо-коньяк с похожим названием...

M>https://ru.wikipedia.org/wiki/Метакса

Точно -- ОН!!!

Здравствуйте, Erop, Вы писали:

vsb>>Тут в очередной раз наслаждаюсь отловом бага, когда в коде написано Tехосмотр (первая буква латинская). И возник вопрос, а зачем вообще этим буквам назначили отдельные коды? Во всех шрифтах, которые я видел, латинская T и русская Т полностью идентичны. Не разумней было бы назначить отдельные символы только тем буквам, которые отличаются от латинских? Тут даже цель не в экономии битов, а именно в исключении ситуации, когда выглядит одинаково, а коды разные.

E>Ну, например, во всех шрифтах, которые я видел маленькие версии букв Tt Тт и Tt Тm отличаются. Последняя, кстати, похожа на m, а не на t...

Я имею в виду те буквы, которые не отличаются: AАBВEЕKКMМHНOОPРCСTТXХaаeеoоpрcсyуxх

vsb>Я имею в виду те буквы, которые не отличаются: AАBВEЕKКMМHНOОPРCСTТXХaаeеoоpрcсyуxх

И? То, что они не отличаются в компьютерных шрифтах, говорит только о том, что компьютеры в целом убили понятие типографики. И, вдобавок, у тебя внезапно на ровном месте появляется дополнительные сложности для обработки таких текстов:

— B это заглавная от б или b?
— T это заглавная от t или т?
— P — это «эр» или «пэ»?

Это не говоря о диком усложнении программ на ровном месте. При том, что уже сейчас средний программист не может нормально обработать ситуации с «ё»: https://i.imgur.com/SMv1728.png

Это не говоря о том, что у тебя исключительно «западный» взгляд на вещи. Предлагаешь, например, так же объединить:

— Փ ARMENIAN CAPITAL LETTER PIWR
— օ ARMENIAN SMALL LETTER OH
— ০ BENGALI DIGIT ZERO
— ৪ BENGALI DIGIT FOUR
— 𑄽 CHAKMA DIGIT SEVEN
— ᱛ OL CHIKI LETTER AT
— ᳃ SUNDANESE PUNCTUATION BINDU CAKRA
— ᩅ TAI THAM LETTER WA
— ቀ ETHIOPIC SYLLABLE QA
— Ᏼ CHEROKEE LETTER YV
— Ꭲ CHEROKEE LETTER I
— Ꭼ CHEROKEE LETTER GV
— Ꭺ CHEROKEE LETTER GO

и т.п.? Ну, на а чо. Пишутся одинаково (или почти одинаково), еще и наверняка из одного алфавита произошли или основаны друг на друге, да.

От:	Mamut	http://dmitriid.com
Дата:	10.04.20 11:07
Оценка:	+1

От:	Mamut	http://dmitriid.com
Дата:	10.04.20 11:12
Оценка:	-1

От:	Mamut	http://dmitriid.com
Дата:	10.04.20 11:14
Оценка:

	От:	Stanislav V. Zudin
	Дата:	10.04.20 11:26
	Оценка:

От:	Mamut	http://dmitriid.com
Дата:	10.04.20 11:28
Оценка:

	От:	Kerk
	Дата:	11.04.20 00:03
	Оценка:

	От:	Cyberax
	Дата:	11.04.20 01:16
	Оценка:

	От:	Dair
	Дата:	11.04.20 09:27
	Оценка:

	От:	Erop
	Дата:	11.04.20 20:57
	Оценка:	+1