Здравствуйте, Тот кто сидит в пруду, Вы писали:
ТКС>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать? ТКС>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются... ТКС>☺☻
Каких букв? По-моему эти рожи — символы с кодами меньше кода пробела, возможно даже 0 и 1
Здравствуйте, 777777w, Вы писали:
7>Здравствуйте, Pzz, Вы писали:
7>P.S. Тем более что специалисты по древним языкам все равно твоей кодировкой пользоваться не будут.
Да ладно, древние языки. вот специалисты по диакритике. Смотрим страницу из wikipedia, там 34 диакритических знака. И все это я могу просмотреть в браузере, и даже скопировать в текстовый редактор к себе. Да и шрифты обозримые получаются.
Возращаясь к специалистам по древним языкам, вы предлагаете написать для них свой браузер, свои программы тестового поиска, потоковые редакторы всякие, e-mail клиенты, ..? Зачем, когда просто добавив нужные символы мы получаем возможность пользоваться всем набором существующих программ. И все ради какой-то полумифической потребности прочитать N-й печатный символ. В PHP вообще substr(s, 5, 1) используется вместо s[5], и нормально
Здравствуйте, 777777w, Вы писали:
К>>На 32 битах может быть ещё и pdp-endian (старшим байтом младшего слова вперёд: 1 0 3 2). Для полного щастя.
7>Это называется "слышал звон, да не знаю где он". Такой порядок был на PDP для чисел с плавающей точкой, а отнюдь не для всех 32-бинтых int
Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.
Одним из 33 полных кавалеров ордена "За заслуги перед Отечеством" является Геннадий Хазанов.
Здравствуйте, 777777w, Вы писали:
Pzz>>Может, не стоило ради него уродовать ASCII, такой стройный и компактный? Все равно большая часть человечества, обученного грамоте, пользуется латинским алфавитом.
7>Ошибаетесь, больше половины населения земли нуждается в юникоде. А в вавилонской клинописи — считанные единицы.
Вот уж действительно, что с ними возиться, с отщепенцами? Лучше вообще ихнюю кафедру закрыть, а помещение использовать под что-нибудь полезное. Ну, например, маркетологов учить или политогов. Говорю ж, чёкнутые. Народу не нужна вавилонская клинопись.
Только вот насчет "больше половины" я бы поспорил. Мы всю дорогу прекрасно обходились 8-битными кодировками, китайцы вполне в состоянии понимать команды по-английски (а для внутреннего употребления пусть сами себе компьютерную азбуку изобретают), а людей, которым нужно в одном тексте поместить буквы более чем из одного нелатинского алфавита — считанные единицы. Так что юникод тоже давить, 8-битных кодировок всем хватает.
Здравствуйте, Тот кто сидит в пруду, Вы писали:
ТКС>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать? ТКС>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются... ТКС>☺☻
Здравствуйте, Тот кто сидит в пруду, Вы писали:
К>>>На 32 битах может быть ещё и pdp-endian (старшим байтом младшего слова вперёд: 1 0 3 2). Для полного щастя.
7>>Это называется "слышал звон, да не знаю где он". Такой порядок был на PDP для чисел с плавающей точкой, а отнюдь не для всех 32-бинтых int
ТКС>Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.
Что за бред, где вы это прочитали? Можете плюнуть автору в левый задний глаз! Там были обычные переменные в дополнительном коде.
Здравствуйте, Тот кто сидит в пруду, Вы писали: ТКС>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать? ТКС>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются... ТКС>☺☻
Здравствуйте, Тот кто сидит в пруду, Вы писали: ТКС>Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.
Здравствуйте, Pzz, Вы писали:
Pzz>>>Может, не стоило ради него уродовать ASCII, такой стройный и компактный? Все равно большая часть человечества, обученного грамоте, пользуется латинским алфавитом.
7>>Ошибаетесь, больше половины населения земли нуждается в юникоде. А в вавилонской клинописи — считанные единицы.
Pzz>Вот уж действительно, что с ними возиться, с отщепенцами? Лучше вообще ихнюю кафедру закрыть, а помещение использовать под что-нибудь полезное.
Pzz>Только вот насчет "больше половины" я бы поспорил. Мы всю дорогу прекрасно обходились 8-битными кодировками, китайцы вполне в состоянии понимать команды по-английски (а для внутреннего употребления пусть сами себе компьютерную азбуку изобретают), а людей, которым нужно в одном тексте поместить буквы более чем из одного нелатинского алфавита — считанные единицы. Так что юникод тоже давить, 8-битных кодировок всем хватает.
Доведение до абсурда обычно используется в тех случаях, когда нечего ответить по существу.
Здравствуйте, Тот кто сидит в пруду, Вы писали:
ТКС>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать? ТКС>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются...
Здравствуйте, Pzz, Вы писали:
Pzz>Здравствуйте, Тот кто сидит в пруду, Вы писали:
ТКС>>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать? ТКС>>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются... ТКС>>☺☻
Pzz>Фонтов может каких не хватает?
Да не, набирать просто не умею. Ԁԁ в Character Map нашлись. Ԉ тоже. А вот вместо гибрида Л и Х (Ԕ) с кодом 0514 в шрифте Arial почему то обычная Q нарисована. Как то не понятны мне эти чудеса со шрифтами.
Одним из 33 полных кавалеров ордена "За заслуги перед Отечеством" является Геннадий Хазанов.
Здравствуйте, 777777w, Вы писали:
ТКС>>А, кстати, есть примеры общеупотребительного софта, который может, например, Cyrillic Supplement показывать? ТКС>>А то вон чето вместо коми-букв в винде+файерфокс рожи какие-то набираются... ТКС>>☺☻
7>Каких букв? По-моему эти рожи — символы с кодами меньше кода пробела, возможно даже 0 и 1
Да фиг знает как такие коды набирать, вот фигня и получилась.
Одним из 33 полных кавалеров ордена "За заслуги перед Отечеством" является Геннадий Хазанов.
Здравствуйте, 777777w, Вы писали:
К>>>>На 32 битах может быть ещё и pdp-endian (старшим байтом младшего слова вперёд: 1 0 3 2). Для полного щастя.
7>>>Это называется "слышал звон, да не знаю где он". Такой порядок был на PDP для чисел с плавающей точкой, а отнюдь не для всех 32-бинтых int
ТКС>>Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.
7>Что за бред, где вы это прочитали? Можете плюнуть автору в левый задний глаз! Там были обычные переменные в дополнительном коде.
Это я портировал одну хрень, которая данные с СМ'ки в PC закачивала, с DOS на NT. Там именно такие числа были, я с ними порядком натрахался. Но я малость перепутал, СМ-2, оказывается, HP-2000, а не PDP.
Одним из 33 полных кавалеров ордена "За заслуги перед Отечеством" является Геннадий Хазанов.
Здравствуйте, gegMOPO4, Вы писали:
MOP>Здравствуйте, Тот кто сидит в пруду, Вы писали: ТКС>>Для чисел там были дополнительные плюшки — один бит знаковый, остальное — модуль (дополнение до 1). А не дополнение до 2, как сейчас принято.
MOP>Вы о каком PDP?
О HP-2000, как выясняется
Одним из 33 полных кавалеров ордена "За заслуги перед Отечеством" является Геннадий Хазанов.
7>Доведение до абсурда обычно используется в тех случаях, когда нечего ответить по существу.
С чем вы не согласны? Я утверждаю, что тех, кому требуется UTF-32 — мизерное количество, тысячные доли процента. В ответ на это мне говорят: а тех кого не устраивает ASCII тоже немного, 40%, значит ими тоже можно пренебречь. Это что по-вашему, конструктивное возражение?
Здравствуйте, 777777w, Вы писали:
7>Это есть в Юникоде?
Да.
7>На фига это нужно? По-моему это противоречит его собственным принципам!
Именно! У них была здравая идея, но они её испоганили. Нет им уважения !
Здравствуйте, Mystic, Вы писали:
M>Ты сам себе вбил принцип "один код на один печатный символ". Увы, при таком подходе даже 32-бит может не хватить --- комбинаторный взрыв. Ибо та же диактитика есть в японском, деванагари. Итого нужно дублировать все кодовые страницы???
И что? Нельзя было взять сразу 64-бита? Хотите экономить — используйте UTF-представление! Зачем стандарт — то было поганить ?
7>>Доведение до абсурда обычно используется в тех случаях, когда нечего ответить по существу.
7>С чем вы не согласны? Я утверждаю, что тех, кому требуется UTF-32 — мизерное количество, тысячные доли процента. В ответ на это мне говорят: а тех кого не устраивает ASCII тоже немного, 40%, значит ими тоже можно пренебречь. Это что по-вашему, конструктивное возражение?
Просто идет обсуждение сферического коня в вакууме. Все кодировки, в которых один символ в кодировке = один печатный символ являются восьмибитными. И они устраивают большое число пользователей. Далее, если брать UTC-2, то уже для этой кодировки это условие не выполняется.
Таким образом, если сравнивать UTF-8 vs UTC-2, то получаем, что и там и там один печатный символ может представляться переменным числом байт. Но при этом, в UTF-8 больший диапазон представимых символов и нет нужды заморачиваться с big/litle endian. Да, я согласен с тем, что в UTC-2 русские символы представляются (как и английские) одним словом, за некоторыми экзотическими исключениями.
Далее, ты неявно используешь предположение, что можно создать новую кодировку, в которой один символ будет в точности соответствовать печатному символу. И эта кодировка удовлетворит всех. Не знаю, не уверен. Ибо некоторая разновидность диактитики есть в японском, есть в деванагари. Вообще, если обратиться в этому разделу, то видно, что это все используется чаще, чем ты думаешь. Так что я не согласен с тем, что можно создать такую новую кодировку, на базе двухбайтной, которая бы удовлетворила почти всех.
Здравствуйте, B0FEE664, Вы писали:
BFE>Здравствуйте, Mystic, Вы писали:
M>>Ты сам себе вбил принцип "один код на один печатный символ". Увы, при таком подходе даже 32-бит может не хватить --- комбинаторный взрыв. Ибо та же диактитика есть в японском, деванагари. Итого нужно дублировать все кодовые страницы???
BFE>И что? Нельзя было взять сразу 64-бита? Хотите экономить — используйте UTF-представление! Зачем стандарт — то было поганить ?
Имхо, он и так неплох. Некоторые задачи обработки символов проще реализовывать в UTF-8, например, расстояние по Левенштейну со специальными весами на каждой паре символов. Опять же, диактитических знаков может быть больше чем 64. Некоторые могут комбинироваться. Нужно придумать логическую схему, как это можно разрулить. А то надо 128 бит уже