Cyrillic-friendly Unicode encoding - Философия программирования

В UTF-8 буквы кириллицы занимают по два байта, в то время как латинские — по одному. Это во-первых несправедливо, а во-вторых неоптимально для большинства текстов использующих кириллицу. По-моему есть смысл в наличии кодировки в которой кириллица требовала бы меньше места, почему же такой кодировки до сих пор нет?

Здравствуйте, igna, Вы писали:

I> почему же такой кодировки до сих пор нет?

Может быть, потому что есть архиваторы?

Здравствуйте, nikov, Вы писали:

N>Может быть, потому что есть архиваторы?

Если принять этот аргумент, то за исключением специальных случаев ничего кроме UTF-32/UCS-4 не нужно.

Здравствуйте, igna, Вы писали:

I>В UTF-8 буквы кириллицы занимают по два байта, в то время как латинские — по одному. Это во-первых несправедливо, а во-вторых неоптимально для большинства текстов использующих кириллицу. По-моему есть смысл в наличии кодировки в которой кириллица требовала бы меньше места, почему же такой кодировки до сих пор нет?

CP866
CP1251
KOI-8
не?

... << RSDN@Home 1.1.4 stable SR1 rev. 568>>

Здравствуйте, CreatorCray, Вы писали:

CC>CP866
CC>CP1251
CC>KOI-8

Это не Unicode. (Ну да, сам виноват, надо было повторить слово Unicode в тексте.)

Здравствуйте, igna, Вы писали:

I>неоптимально для большинства текстов использующих кириллицу.

неоптимально для какой задачи?

Здравствуйте, igna, Вы писали:

I>В UTF-8 буквы кириллицы занимают по два байта, в то время как латинские — по одному. Это во-первых несправедливо, а во-вторых неоптимально для большинства текстов использующих кириллицу. По-моему есть смысл в наличии кодировки в которой кириллица требовала бы меньше места, почему же такой кодировки до сих пор нет?

Ну, во-первых, формально utf-8 это не кодировка, а Unicode transformation format.
Вам в принципе ничто не мешает придумать свой transformation format для своего применения. Вопрос только, насколько это будет эффективно в каком случае, переносимо, какая часть сообщества разработчиков поддержит... мне что-то кажется, что даже при наличии общедоступной библиотеки большинство не захотят этим заморачиваться. Всё-таки пока что Unicode со стандартными форматами вполне удовлетворяет граничным условиям на подход типа "безобразно, но единообразно".

Здравствуйте, netch80, Вы писали:

n> Ну, во-первых, формально utf-8 это не кодировка, а Unicode transformation format.

Кодировка (юникод код-поинты кодируются в последовательности байт) и есть

От прочих отличается лишь тем, что не является чарсетом (charset).

avalon 1.0rc3 rev 380, zlib 1.2.3

Здравствуйте, igna, Вы писали:

I>В UTF-8 буквы кириллицы занимают по два байта, в то время как латинские — по одному.
Утешься тем, что некоторые пользуют до 4х байт на символ.

I>Это во-первых несправедливо, а во-вторых неоптимально для большинства текстов использующих кириллицу.
Используй не-юникодные кодировки.

I>По-моему есть смысл в наличии кодировки в которой кириллица требовала бы меньше места, почему же такой кодировки до сих пор нет?
Хорошо. Представь, что китайцы захотели того же. И корейцы с японцами тоже. И что это будет? Обратно к куче не-юникодных кодировок? Спасибо тебе огромное.

...Впрочем, в твоей идее есть рациональное зерно. Имело бы смысл заиметь кодировки типа: "UTF-mostly-2bit" или "UTF-mostly-4bit", в которых кодпойнты совпадающие с "предпочтительным" размером кодировались бы коротко, а остальные наоборот...
Но, в свете того, что нынче и трафик и дисковое пространство дешевое, и дальше дешевеет, заниматься таким "выковыриванием гнид" (nitpicking) всерьез никто не станет. То есть, идея твоя несколько запоздала. Если бы ты ее выродил хотя бы лет 10 назад — попал бы ты в историю инернетов.

Здравствуйте, igna, Вы писали:

I>В UTF-8 буквы кириллицы занимают по два байта, в то время как латинские — по одному. Это во-первых несправедливо, а во-вторых неоптимально для большинства текстов использующих кириллицу. По-моему есть смысл в наличии кодировки в которой кириллица требовала бы меньше места, почему же такой кодировки до сих пор нет?

Предлагаю UTF-16 — ни нашим, ни вашим.

Здравствуйте, 0xDEADBEEF, Вы писали:

DEA> Но, в свете того, что нынче и трафик и дисковое пространство дешевое

Мобильный трафик не так уж дешев, а учитывая рост количества мобильных девайсов (и я говорю не только о телефонах), забота о его уменьшении довольно актуальна. Хотя тут никакой проблемы нет. Скажем, если у тебя обмен с сервисом идет в XML, то просто кодируешь все в cp1251 (кириллица и латиница однобайтовые), а все что за рамками cp1251 ескейпится согласно спеке (аналогично и для HTML).

avalon 1.0rc3 rev 380, zlib 1.2.3

Здравствуйте, hattab, Вы писали:

H>Мобильный трафик не так уж дешев, а учитывая рост количества мобильных девайсов (и я говорю не только о телефонах), забота о его уменьшении довольно актуальна.
Сжимающие прокси тебе в помощь. Например, Opera Turbo.
Впрочем, я от них отказался т.к. некоторые сайты (например этот) в турбо-опере не работают. Уж не знаю почему.
А моего пакета мобильного трафика и так хватает, не знаю как вам. И обходится он дешево — примерно 0.3% от зарплаты.

Здравствуйте, 0xDEADBEEF, Вы писали:

DEA> H>Мобильный трафик не так уж дешев, а учитывая рост количества мобильных девайсов (и я говорю не только о телефонах), забота о его уменьшении довольно актуальна.

DEA> Сжимающие прокси тебе в помощь. Например, Opera Turbo.

Спасибо, не нужно. Gzip решает. Но cp1251 сжато будет все равно лучше, чем UTF-8.

DEA> Впрочем, я от них отказался т.к. некоторые сайты (например этот) в турбо-опере не работают. Уж не знаю почему.
DEA> А моего пакета мобильного трафика и так хватает, не знаю как вам. И обходится он дешево — примерно 0.3% от зарплаты.

У меня вообще безлимит, но на 3G-модеме, а на телефоне он мне нафиг не нужен — платить за него, но юзать инет через телефон иногда приходится. Вообще, какая проблема с кодированием? Не все ли равно во что кодировать в cp1251 или в UTF-8, сам факт кодирования то никто не отменил, а на 1251 профит по объему, так почему нет?

avalon 1.0rc3 rev 380, zlib 1.2.3

Здравствуйте, netch80, Вы писали:

N>Ну, во-первых, формально utf-8 это не кодировка, а Unicode transformation format.

Не кодировка? А как будет encoding по-русски?

Здравствуйте, Kerbadun, Вы писали:

K>Предлагаю UTF-16 — ни нашим, ни вашим.

Да, это известный паттерн достижения справедливости, сделать не себе лучше, а другим хуже.

Здравствуйте, 0xDEADBEEF, Вы писали:

DEA>Используй не-юникодные кодировки.
DEA>Хорошо. Представь, что китайцы захотели того же. И корейцы с японцами тоже. И что это будет? Обратно к куче не-юникодных кодировок?

Ты сам себе противоречишь то предлагая использовать неюникодную кодировку, то сетуя по поводу неюникодных кодировок. Речь-то о (несуществующей) юникодной кодировке с однобайтной кириллицей. И да, я забыл повторить слово Unicode в тексте, но оно есть в названии темы.

Здравствуйте, hattab, Вы писали:

H>... если у тебя обмен с сервисом идет в XML, то просто кодируешь все в cp1251 (кириллица и латиница однобайтовые), а все что за рамками cp1251 ескейпится согласно спеке ...

"Спеке" это что?

Здравствуйте, igna, Вы писали:

i> H>... если у тебя обмен с сервисом идет в XML, то просто кодируешь все в cp1251 (кириллица и латиница однобайтовые), а все что за рамками cp1251 ескейпится согласно спеке ...

i> "Спеке" это что?

Спека — спецификация. В общем, XML и HTML позволяют эскейпить любой unicode codepoint (допустимый для этих форматов). Скажем, русская "А" может быть представлена в виде А (десятичная форма) или А (шестнадцатеричная форма). Сам документ при этом может быть, например, в ASCII кодировке.

avalon 1.0rc3 rev 380, zlib 1.2.3

Здравствуйте, hattab, Вы писали:

H>Спека — спецификация. В общем, XML и HTML позволяют эскейпить любой unicode codepoint (допустимый для этих форматов). Скажем, русская "А" может быть представлена в виде А (десятичная форма) или А (шестнадцатеричная форма). Сам документ при этом может быть, например, в ASCII кодировке.

Ну и никаких UTF-8 тогда тоже не нужно.

Здравствуйте, igna, Вы писали:

I>Здравствуйте, 0xDEADBEEF, Вы писали:

DEA>>Используй не-юникодные кодировки.
DEA>>Хорошо. Представь, что китайцы захотели того же. И корейцы с японцами тоже. И что это будет? Обратно к куче не-юникодных кодировок?

I>Ты сам себе противоречишь то предлагая использовать неюникодную кодировку, то сетуя по поводу неюникодных кодировок. Речь-то о (несуществующей) юникодной кодировке с однобайтной кириллицей.
Я неудачно выразился.
Кодировки — юникодные, но их много и каждая "мастурбирует по-своему", чтобы закодировать покороче свой любимый диапазон кодпойнтов.
В итоге, снова мы окажемся с зоопарком несовместимых кодировок, как это было в до-юникодную эру.
Так понятнее?

	От:	igna
	Дата:	18.01.11 17:07
	Оценка:

От:	nikov	http://www.linkedin.com/in/nikov
Дата:	18.01.11 17:08
Оценка:

	От:	igna
	Дата:	18.01.11 17:12
	Оценка:	1 (1)

	От:	CreatorCray
	Дата:	18.01.11 17:15
	Оценка:

	От:	igna
	Дата:	18.01.11 17:18
	Оценка:

От:	DarkGray	http://blog.metatech.ru/post/ogni-razrabotki.aspx
Дата:	18.01.11 18:06
Оценка:	-1

От:	netch80	http://netch80.dreamwidth.org/
Дата:	18.01.11 20:09
Оценка:	+2

	От:	Kerbadun
	Дата:	19.01.11 00:08
	Оценка:

	От:	hattab
	Дата:	19.01.11 00:12
	Оценка:

	От:	0xDEADBEEF
	Дата:	19.01.11 00:22
	Оценка:	+1

	От:	hattab
	Дата:	19.01.11 00:43
	Оценка: