снова про unicode - Компьютерные священные войны

Здравствуйте, Тот кто сидит в пруду, Вы писали:

ТКС>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать?
ТКС>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются...
ТКС>☺☻

Каких букв?

По-моему эти рожи — символы с кодами меньше кода пробела, возможно даже 0 и 1

Здравствуйте, 777777w, Вы писали:

7>Здравствуйте, Pzz, Вы писали:

7>P.S. Тем более что специалисты по древним языкам все равно твоей кодировкой пользоваться не будут.

Да ладно, древние языки. вот специалисты по диакритике. Смотрим страницу из wikipedia, там 34 диакритических знака. И все это я могу просмотреть в браузере, и даже скопировать в текстовый редактор к себе. Да и шрифты обозримые получаются.

Возращаясь к специалистам по древним языкам, вы предлагаете написать для них свой браузер, свои программы тестового поиска, потоковые редакторы всякие, e-mail клиенты, ..? Зачем, когда просто добавив нужные символы мы получаем возможность пользоваться всем набором существующих программ. И все ради какой-то полумифической потребности прочитать N-й печатный символ. В PHP вообще substr(s, 5, 1) используется вместо s[5], и нормально

Здравствуйте, 777777w, Вы писали:

К>>На 32 битах может быть ещё и pdp-endian (старшим байтом младшего слова вперёд: 1 0 3 2). Для полного щастя.

7>Это называется "слышал звон, да не знаю где он". Такой порядок был на PDP для чисел с плавающей точкой, а отнюдь не для всех 32-бинтых int

Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.

Здравствуйте, 777777w, Вы писали:

Pzz>>Может, не стоило ради него уродовать ASCII, такой стройный и компактный? Все равно большая часть человечества, обученного грамоте, пользуется латинским алфавитом.

7>Ошибаетесь, больше половины населения земли нуждается в юникоде. А в вавилонской клинописи — считанные единицы.

Вот уж действительно, что с ними возиться, с отщепенцами? Лучше вообще ихнюю кафедру закрыть, а помещение использовать под что-нибудь полезное. Ну, например, маркетологов учить или политогов. Говорю ж, чёкнутые. Народу не нужна вавилонская клинопись.

Только вот насчет "больше половины" я бы поспорил. Мы всю дорогу прекрасно обходились 8-битными кодировками, китайцы вполне в состоянии понимать команды по-английски (а для внутреннего употребления пусть сами себе компьютерную азбуку изобретают), а людей, которым нужно в одном тексте поместить буквы более чем из одного нелатинского алфавита — считанные единицы. Так что юникод тоже давить, 8-битных кодировок всем хватает.

Здравствуйте, Тот кто сидит в пруду, Вы писали:

ТКС>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать?
ТКС>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются...
ТКС>☺☻

Фонтов может каких не хватает?

Здравствуйте, Тот кто сидит в пруду, Вы писали:

К>>>На 32 битах может быть ещё и pdp-endian (старшим байтом младшего слова вперёд: 1 0 3 2). Для полного щастя.

7>>Это называется "слышал звон, да не знаю где он". Такой порядок был на PDP для чисел с плавающей точкой, а отнюдь не для всех 32-бинтых int

ТКС>Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.

Что за бред, где вы это прочитали? Можете плюнуть автору в левый задний глаз! Там были обычные переменные в дополнительном коде.

Здравствуйте, Тот кто сидит в пруду, Вы писали:
ТКС>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать?
ТКС>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются...
ТКС>☺☻

ԀԁԂԃԄԅԆԇԈԉԊԋԌԍԎԏԐԑԒԓԔԕԖԗԘԙԚԛԜԝԞԟԠԡԢԣԤԥ

Как видно?

Здравствуйте, Тот кто сидит в пруду, Вы писали:
ТКС>Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.

Вы о каком PDP?

Здравствуйте, Pzz, Вы писали:

Pzz>>>Может, не стоило ради него уродовать ASCII, такой стройный и компактный? Все равно большая часть человечества, обученного грамоте, пользуется латинским алфавитом.

7>>Ошибаетесь, больше половины населения земли нуждается в юникоде. А в вавилонской клинописи — считанные единицы.

Pzz>Вот уж действительно, что с ними возиться, с отщепенцами? Лучше вообще ихнюю кафедру закрыть, а помещение использовать под что-нибудь полезное.

Pzz>Только вот насчет "больше половины" я бы поспорил. Мы всю дорогу прекрасно обходились 8-битными кодировками, китайцы вполне в состоянии понимать команды по-английски (а для внутреннего употребления пусть сами себе компьютерную азбуку изобретают), а людей, которым нужно в одном тексте поместить буквы более чем из одного нелатинского алфавита — считанные единицы. Так что юникод тоже давить, 8-битных кодировок всем хватает.

Доведение до абсурда обычно используется в тех случаях, когда нечего ответить по существу.

Здравствуйте, Тот кто сидит в пруду, Вы писали:

ТКС>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать?
ТКС>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются...

Debian + Chrome, захожу на страницу Test for Unicode support in Web browsers и вижу все символы, кроме последних четырех.

Здравствуйте, gegMOPO4, Вы писали:

MOP>ԀԁԂԃԄԅԆԇԈԉԊԋԌԍԎԏԐԑԒԓԔԕԖԗԘԙԚԛԜԝԞԟԠԡԢԣԤԥ
MOP>Как видно?

Прекрасно видно, копируется, редактируется

Здравствуйте, Pzz, Вы писали:

Pzz>Здравствуйте, Тот кто сидит в пруду, Вы писали:

ТКС>>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать?
ТКС>>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются...
ТКС>>☺☻

Pzz>Фонтов может каких не хватает?

Да не, набирать просто не умею. Ԁԁ в Character Map нашлись. Ԉ тоже. А вот вместо гибрида Л и Х (Ԕ) с кодом 0514 в шрифте Arial почему то обычная Q нарисована. Как то не понятны мне эти чудеса со шрифтами.

Здравствуйте, 777777w, Вы писали:

ТКС>>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать?
ТКС>>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются...
ТКС>>☺☻

7>Каких букв?

По-моему эти рожи — символы с кодами меньше кода пробела, возможно даже 0 и 1

Да фиг знает как такие коды набирать, вот фигня и получилась.

Здравствуйте, 777777w, Вы писали:

К>>>>На 32 битах может быть ещё и pdp-endian (старшим байтом младшего слова вперёд: 1 0 3 2). Для полного щастя.

7>>>Это называется "слышал звон, да не знаю где он". Такой порядок был на PDP для чисел с плавающей точкой, а отнюдь не для всех 32-бинтых int

ТКС>>Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.

7>Что за бред, где вы это прочитали? Можете плюнуть автору в левый задний глаз! Там были обычные переменные в дополнительном коде.

Это я портировал одну хрень, которая данные с СМ'ки в PC закачивала, с DOS на NT. Там именно такие числа были, я с ними порядком натрахался. Но я малость перепутал, СМ-2, оказывается, HP-2000, а не PDP.

Здравствуйте, gegMOPO4, Вы писали:

MOP>Здравствуйте, Тот кто сидит в пруду, Вы писали:
ТКС>>Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.

MOP>Вы о каком PDP?

О HP-2000, как выясняется

7>Доведение до абсурда обычно используется в тех случаях, когда нечего ответить по существу.

С чем вы не согласны? Я утверждаю, что тех, кому требуется UTF-32 — мизерное количество, тысячные доли процента. В ответ на это мне говорят: а тех кого не устраивает ASCII тоже немного, 40%, значит ими тоже можно пренебречь. Это что по-вашему, конструктивное возражение?

Здравствуйте, 777777w, Вы писали:

7>Это есть в Юникоде?

Да.

7>На фига это нужно? По-моему это противоречит его собственным принципам!
Именно! У них была здравая идея, но они её испоганили. Нет им уважения !

Здравствуйте, Mystic, Вы писали:

M>Ты сам себе вбил принцип "один код на один печатный символ". Увы, при таком подходе даже 32-бит может не хватить --- комбинаторный взрыв. Ибо та же диактитика есть в японском, деванагари. Итого нужно дублировать все кодовые страницы???

И что? Нельзя было взять сразу 64-бита? Хотите экономить — используйте UTF-представление! Зачем стандарт — то было поганить ?

Здравствуйте, 777777w, Вы писали:

7>>Доведение до абсурда обычно используется в тех случаях, когда нечего ответить по существу.

7>С чем вы не согласны? Я утверждаю, что тех, кому требуется UTF-32 — мизерное количество, тысячные доли процента. В ответ на это мне говорят: а тех кого не устраивает ASCII тоже немного, 40%, значит ими тоже можно пренебречь. Это что по-вашему, конструктивное возражение?

Просто идет обсуждение сферического коня в вакууме. Все кодировки, в которых один символ в кодировке = один печатный символ являются восьмибитными. И они устраивают большое число пользователей. Далее, если брать UTC-2, то уже для этой кодировки это условие не выполняется.

Таким образом, если сравнивать UTF-8 vs UTC-2, то получаем, что и там и там один печатный символ может представляться переменным числом байт. Но при этом, в UTF-8 больший диапазон представимых символов и нет нужды заморачиваться с big/litle endian. Да, я согласен с тем, что в UTC-2 русские символы представляются (как и английские) одним словом, за некоторыми экзотическими исключениями.

Далее, ты неявно используешь предположение, что можно создать новую кодировку, в которой один символ будет в точности соответствовать печатному символу. И эта кодировка удовлетворит всех. Не знаю, не уверен. Ибо некоторая разновидность диактитики есть в японском, есть в деванагари. Вообще, если обратиться в этому разделу, то видно, что это все используется чаще, чем ты думаешь. Так что я не согласен с тем, что можно создать такую новую кодировку, на базе двухбайтной, которая бы удовлетворила почти всех.

Здравствуйте, B0FEE664, Вы писали:

BFE>Здравствуйте, Mystic, Вы писали:

M>>Ты сам себе вбил принцип "один код на один печатный символ". Увы, при таком подходе даже 32-бит может не хватить --- комбинаторный взрыв. Ибо та же диактитика есть в японском, деванагари. Итого нужно дублировать все кодовые страницы???

BFE>И что? Нельзя было взять сразу 64-бита? Хотите экономить — используйте UTF-представление! Зачем стандарт — то было поганить ?

Имхо, он и так неплох. Некоторые задачи обработки символов проще реализовывать в UTF-8, например, расстояние по Левенштейну со специальными весами на каждой паре символов. Опять же, диактитических знаков может быть больше чем 64. Некоторые могут комбинироваться. Нужно придумать логическую схему, как это можно разрулить. А то надо 128 бит уже

	От:	777777w
	Дата:	18.11.11 15:15
	Оценка:

От:	Mystic	http://mystic2000.newmail.ru
Дата:	18.11.11 15:15
Оценка:	+2

	От:	Тот кто сидит в пруду
	Дата:	18.11.11 15:16
	Оценка:

От:	Pzz	https://github.com/alexpevzner
Дата:	18.11.11 15:17
Оценка:

От:	Pzz	https://github.com/alexpevzner
Дата:	18.11.11 15:18
Оценка: