Re[9]: снова про unicode
От: 777777w  
Дата: 18.11.11 15:15
Оценка:
Здравствуйте, Тот кто сидит в пруду, Вы писали:

ТКС>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать?

ТКС>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются...
ТКС>☺☻

Каких букв? По-моему эти рожи — символы с кодами меньше кода пробела, возможно даже 0 и 1
Re[9]: снова про unicode
От: Mystic Украина http://mystic2000.newmail.ru
Дата: 18.11.11 15:15
Оценка: +2
Здравствуйте, 777777w, Вы писали:

7>Здравствуйте, Pzz, Вы писали:


7>P.S. Тем более что специалисты по древним языкам все равно твоей кодировкой пользоваться не будут.


Да ладно, древние языки. вот специалисты по диакритике. Смотрим страницу из wikipedia, там 34 диакритических знака. И все это я могу просмотреть в браузере, и даже скопировать в текстовый редактор к себе. Да и шрифты обозримые получаются.

Возращаясь к специалистам по древним языкам, вы предлагаете написать для них свой браузер, свои программы тестового поиска, потоковые редакторы всякие, e-mail клиенты, ..? Зачем, когда просто добавив нужные символы мы получаем возможность пользоваться всем набором существующих программ. И все ради какой-то полумифической потребности прочитать N-й печатный символ. В PHP вообще substr(s, 5, 1) используется вместо s[5], и нормально
Re[6]: снова про unicode
От: Тот кто сидит в пруду Россия  
Дата: 18.11.11 15:16
Оценка:
Здравствуйте, 777777w, Вы писали:

К>>На 32 битах может быть ещё и pdp-endian (старшим байтом младшего слова вперёд: 1 0 3 2). Для полного щастя.


7>Это называется "слышал звон, да не знаю где он". Такой порядок был на PDP для чисел с плавающей точкой, а отнюдь не для всех 32-бинтых int


Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.
Одним из 33 полных кавалеров ордена "За заслуги перед Отечеством" является Геннадий Хазанов.
Re[11]: снова про unicode
От: Pzz Россия https://github.com/alexpevzner
Дата: 18.11.11 15:17
Оценка:
Здравствуйте, 777777w, Вы писали:

Pzz>>Может, не стоило ради него уродовать ASCII, такой стройный и компактный? Все равно большая часть человечества, обученного грамоте, пользуется латинским алфавитом.


7>Ошибаетесь, больше половины населения земли нуждается в юникоде. А в вавилонской клинописи — считанные единицы.


Вот уж действительно, что с ними возиться, с отщепенцами? Лучше вообще ихнюю кафедру закрыть, а помещение использовать под что-нибудь полезное. Ну, например, маркетологов учить или политогов. Говорю ж, чёкнутые. Народу не нужна вавилонская клинопись.

Только вот насчет "больше половины" я бы поспорил. Мы всю дорогу прекрасно обходились 8-битными кодировками, китайцы вполне в состоянии понимать команды по-английски (а для внутреннего употребления пусть сами себе компьютерную азбуку изобретают), а людей, которым нужно в одном тексте поместить буквы более чем из одного нелатинского алфавита — считанные единицы. Так что юникод тоже давить, 8-битных кодировок всем хватает.
Re[9]: снова про unicode
От: Pzz Россия https://github.com/alexpevzner
Дата: 18.11.11 15:18
Оценка:
Здравствуйте, Тот кто сидит в пруду, Вы писали:

ТКС>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать?

ТКС>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются...
ТКС>☺☻

Фонтов может каких не хватает?
Re[7]: снова про unicode
От: 777777w  
Дата: 18.11.11 15:21
Оценка:
Здравствуйте, Тот кто сидит в пруду, Вы писали:

К>>>На 32 битах может быть ещё и pdp-endian (старшим байтом младшего слова вперёд: 1 0 3 2). Для полного щастя.


7>>Это называется "слышал звон, да не знаю где он". Такой порядок был на PDP для чисел с плавающей точкой, а отнюдь не для всех 32-бинтых int


ТКС>Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.


Что за бред, где вы это прочитали? Можете плюнуть автору в левый задний глаз! Там были обычные переменные в дополнительном коде.
Re[9]: снова про unicode
От: gegMOPO4  
Дата: 18.11.11 15:21
Оценка:
Здравствуйте, Тот кто сидит в пруду, Вы писали:
ТКС>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать?
ТКС>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются...
ТКС>☺☻

ԀԁԂԃԄԅԆԇԈԉԊԋԌԍԎԏԐԑԒԓԔԕԖԗԘԙԚԛԜԝԞԟԠԡԢԣԤԥ

Как видно?
Re[7]: снова про unicode
От: gegMOPO4  
Дата: 18.11.11 15:22
Оценка:
Здравствуйте, Тот кто сидит в пруду, Вы писали:
ТКС>Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.

Вы о каком PDP?
Re[12]: снова про unicode
От: 777777w  
Дата: 18.11.11 15:23
Оценка: -2
Здравствуйте, Pzz, Вы писали:

Pzz>>>Может, не стоило ради него уродовать ASCII, такой стройный и компактный? Все равно большая часть человечества, обученного грамоте, пользуется латинским алфавитом.


7>>Ошибаетесь, больше половины населения земли нуждается в юникоде. А в вавилонской клинописи — считанные единицы.


Pzz>Вот уж действительно, что с ними возиться, с отщепенцами? Лучше вообще ихнюю кафедру закрыть, а помещение использовать под что-нибудь полезное.


Pzz>Только вот насчет "больше половины" я бы поспорил. Мы всю дорогу прекрасно обходились 8-битными кодировками, китайцы вполне в состоянии понимать команды по-английски (а для внутреннего употребления пусть сами себе компьютерную азбуку изобретают), а людей, которым нужно в одном тексте поместить буквы более чем из одного нелатинского алфавита — считанные единицы. Так что юникод тоже давить, 8-битных кодировок всем хватает.


Доведение до абсурда обычно используется в тех случаях, когда нечего ответить по существу.
Re[9]: снова про unicode
От: Mystic Украина http://mystic2000.newmail.ru
Дата: 18.11.11 15:23
Оценка:
Здравствуйте, Тот кто сидит в пруду, Вы писали:

ТКС>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать?

ТКС>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются...

Debian + Chrome, захожу на страницу Test for Unicode support in Web browsers и вижу все символы, кроме последних четырех.
Re[10]: снова про unicode
От: Mystic Украина http://mystic2000.newmail.ru
Дата: 18.11.11 15:24
Оценка:
Здравствуйте, gegMOPO4, Вы писали:

MOP>ԀԁԂԃԄԅԆԇԈԉԊԋԌԍԎԏԐԑԒԓԔԕԖԗԘԙԚԛԜԝԞԟԠԡԢԣԤԥ

MOP>Как видно?

Прекрасно видно, копируется, редактируется
Re[10]: снова про unicode
От: Тот кто сидит в пруду Россия  
Дата: 18.11.11 15:34
Оценка:
Здравствуйте, Pzz, Вы писали:

Pzz>Здравствуйте, Тот кто сидит в пруду, Вы писали:


ТКС>>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать?

ТКС>>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются...
ТКС>>☺☻

Pzz>Фонтов может каких не хватает?


Да не, набирать просто не умею. Ԁԁ в Character Map нашлись. Ԉ тоже. А вот вместо гибрида Л и Х (Ԕ) с кодом 0514 в шрифте Arial почему то обычная Q нарисована. Как то не понятны мне эти чудеса со шрифтами.
Одним из 33 полных кавалеров ордена "За заслуги перед Отечеством" является Геннадий Хазанов.
Re[10]: снова про unicode
От: Тот кто сидит в пруду Россия  
Дата: 18.11.11 15:35
Оценка:
Здравствуйте, 777777w, Вы писали:

ТКС>>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать?

ТКС>>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются...
ТКС>>☺☻

7>Каких букв? По-моему эти рожи — символы с кодами меньше кода пробела, возможно даже 0 и 1


Да фиг знает как такие коды набирать, вот фигня и получилась.
Одним из 33 полных кавалеров ордена "За заслуги перед Отечеством" является Геннадий Хазанов.
Re[8]: снова про unicode
От: Тот кто сидит в пруду Россия  
Дата: 18.11.11 15:42
Оценка:
Здравствуйте, 777777w, Вы писали:

К>>>>На 32 битах может быть ещё и pdp-endian (старшим байтом младшего слова вперёд: 1 0 3 2). Для полного щастя.


7>>>Это называется "слышал звон, да не знаю где он". Такой порядок был на PDP для чисел с плавающей точкой, а отнюдь не для всех 32-бинтых int


ТКС>>Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.


7>Что за бред, где вы это прочитали? Можете плюнуть автору в левый задний глаз! Там были обычные переменные в дополнительном коде.


Это я портировал одну хрень, которая данные с СМ'ки в PC закачивала, с DOS на NT. Там именно такие числа были, я с ними порядком натрахался. Но я малость перепутал, СМ-2, оказывается, HP-2000, а не PDP.
Одним из 33 полных кавалеров ордена "За заслуги перед Отечеством" является Геннадий Хазанов.
Re[8]: снова про unicode
От: Тот кто сидит в пруду Россия  
Дата: 18.11.11 15:43
Оценка:
Здравствуйте, gegMOPO4, Вы писали:

MOP>Здравствуйте, Тот кто сидит в пруду, Вы писали:

ТКС>>Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.

MOP>Вы о каком PDP?


О HP-2000, как выясняется
Одним из 33 полных кавалеров ордена "За заслуги перед Отечеством" является Геннадий Хазанов.
Re[13]: 2 gegMOPO4
От: 777777w  
Дата: 18.11.11 16:08
Оценка:
7>Доведение до абсурда обычно используется в тех случаях, когда нечего ответить по существу.

С чем вы не согласны? Я утверждаю, что тех, кому требуется UTF-32 — мизерное количество, тысячные доли процента. В ответ на это мне говорят: а тех кого не устраивает ASCII тоже немного, 40%, значит ими тоже можно пренебречь. Это что по-вашему, конструктивное возражение?
Re[11]: снова про unicode
От: B0FEE664  
Дата: 18.11.11 16:16
Оценка:
Здравствуйте, 777777w, Вы писали:

7>Это есть в Юникоде?

Да.

7>На фига это нужно? По-моему это противоречит его собственным принципам!

Именно! У них была здравая идея, но они её испоганили. Нет им уважения !
И каждый день — без права на ошибку...
Re[12]: снова про unicode
От: B0FEE664  
Дата: 18.11.11 16:25
Оценка:
Здравствуйте, Mystic, Вы писали:

M>Ты сам себе вбил принцип "один код на один печатный символ". Увы, при таком подходе даже 32-бит может не хватить --- комбинаторный взрыв. Ибо та же диактитика есть в японском, деванагари. Итого нужно дублировать все кодовые страницы???


И что? Нельзя было взять сразу 64-бита? Хотите экономить — используйте UTF-представление! Зачем стандарт — то было поганить ?
И каждый день — без права на ошибку...
Re[14]: 2 gegMOPO4
От: Mystic Украина http://mystic2000.newmail.ru
Дата: 18.11.11 16:32
Оценка:
Здравствуйте, 777777w, Вы писали:


7>>Доведение до абсурда обычно используется в тех случаях, когда нечего ответить по существу.


7>С чем вы не согласны? Я утверждаю, что тех, кому требуется UTF-32 — мизерное количество, тысячные доли процента. В ответ на это мне говорят: а тех кого не устраивает ASCII тоже немного, 40%, значит ими тоже можно пренебречь. Это что по-вашему, конструктивное возражение?


Просто идет обсуждение сферического коня в вакууме. Все кодировки, в которых один символ в кодировке = один печатный символ являются восьмибитными. И они устраивают большое число пользователей. Далее, если брать UTC-2, то уже для этой кодировки это условие не выполняется.

Таким образом, если сравнивать UTF-8 vs UTC-2, то получаем, что и там и там один печатный символ может представляться переменным числом байт. Но при этом, в UTF-8 больший диапазон представимых символов и нет нужды заморачиваться с big/litle endian. Да, я согласен с тем, что в UTC-2 русские символы представляются (как и английские) одним словом, за некоторыми экзотическими исключениями.

Далее, ты неявно используешь предположение, что можно создать новую кодировку, в которой один символ будет в точности соответствовать печатному символу. И эта кодировка удовлетворит всех. Не знаю, не уверен. Ибо некоторая разновидность диактитики есть в японском, есть в деванагари. Вообще, если обратиться в этому разделу, то видно, что это все используется чаще, чем ты думаешь. Так что я не согласен с тем, что можно создать такую новую кодировку, на базе двухбайтной, которая бы удовлетворила почти всех.
Re[13]: снова про unicode
От: Mystic Украина http://mystic2000.newmail.ru
Дата: 18.11.11 16:37
Оценка:
Здравствуйте, B0FEE664, Вы писали:

BFE>Здравствуйте, Mystic, Вы писали:


M>>Ты сам себе вбил принцип "один код на один печатный символ". Увы, при таком подходе даже 32-бит может не хватить --- комбинаторный взрыв. Ибо та же диактитика есть в японском, деванагари. Итого нужно дублировать все кодовые страницы???


BFE>И что? Нельзя было взять сразу 64-бита? Хотите экономить — используйте UTF-представление! Зачем стандарт — то было поганить ?


Имхо, он и так неплох. Некоторые задачи обработки символов проще реализовывать в UTF-8, например, расстояние по Левенштейну со специальными весами на каждой паре символов. Опять же, диактитических знаков может быть больше чем 64. Некоторые могут комбинироваться. Нужно придумать логическую схему, как это можно разрулить. А то надо 128 бит уже
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.