Re[6]: windows1251 в utf-8 и обратно - C/C++. Прикладные вопросы

Здравствуйте, hattab, Вы писали:

H>Здравствуйте, Mucmep, Вы писали:

M>> H>Он спросил куда копать, ему ответили

Чем ты не доволен, добрых дел мастер?

M>> Я тебе уже ответил

, в_каждую_жопу_затычка.

H>Вообще-то, говорят в каждую бочку затычка. В твоем петушатнике этого не знают?

Послушай, страшный тирарист, я таких как ты не одобряю и не поддерживаю. Понятное дело, вас, петухов, не развожу и разводить никогда не буду, чего вы там должны знать не в курсе. Чтобы ты не надеялся напрасно и избежать траты времени на дальнейшие намеки, скажу сразу, знакомых геев у меня тоже нет. Поэтому, не могу подогнать тебе никого кто бы распечатал тебе жопу, но ты не отчаивайся, продолжай искать и наверняка найдется кто-то, кто тебя осчастливит. Но, чтобы тебе повезло быстрее, говори прямо, что ты гей, ищешь партнера по ролевым играм, ты тирарист, партнер — ЧКист поймавший и наказывающий тирариста. А теперь сделай одолжение, с*ебись с форума и забери своих "друзей по заду", сделайте себе сайт bluemamba.com и общайтесь там, не засерайте форум своей гомосятиной, превратили rsdn в помойку для гламурных геев. Гомосеки-волшебники, имейте совесть, это сайт о программировании.

Здравствуйте, Vain, Вы писали:

V>Вопрос из серии как превратить тёплое в мягкое.
V>windows1251 — кодировка символов
V>utf-8 — способ хранения многобайтных символов

О как... "многобайтные символы" это что-то новое...

Короче:

windows1251, utf-8, ascii, koi8 и все остальные есть транспортные кодировки unicode code points.
Кодировка может быть полная (utf-8, utf-16, GB18030 — охватывает весь unicode code point range) или частичная (windows1251, ascii, koi8).
Кодировка может иметь byte code unit — windows1251, utf-8, ascii, koi8, а может иметь word code unit — utf-16.
Кодировка может иметь variable number of code units per code point — utf-8, utf-16, GB18030... , а может иметь one code unit per code point — windows1251, koi8, utf-32.

Здравствуйте, Аноним, Вы писали:

А>Требуется написать на С функции, выволняющие указанные в заголовке преобразования.
А>Как это вообще делается? Куда копать?

Блин, я фигею с наших программистов.
Человек задал конкретный вопрос и, вместо того, чтобы конкретно ответить на вопрос, устроили срач о том, что является кодировкой, а что нет.
Я думал, форум создан для помощи, а не повышении ЧСВ.

Аноним, может вам поможет
char *xcode(LPCSTR pSrcStr, UINT srcCodepage, UINT dstCodepage)
{
int wsize = MultiByteToWideChar(srcCodepage, 0, pSrcStr, -1, NULL, 0);
LPWSTR wbuf = (LPWSTR)mallocz(wsize*sizeof(WCHAR));
MultiByteToWideChar(srcCodepage, 0, pSrcStr, -1, wbuf, wsize);
int size = WideCharToMultiByte(dstCodepage, 0, wbuf, -1, NULL, 0, NULL, NULL);
LPSTR buf = (LPSTR)mallocz(size);
WideCharToMultiByte(dstCodepage, 0, wbuf, -1, buf, size, NULL, NULL);
bfree(wbuf);
return buf;
}

Здравствуйте, kaa.python, Вы писали:

А>>Требуется написать на С функции, выволняющие указанные в заголовке преобразования.
А>>Как это вообще делается? Куда копать?

KP>В сторону исходинков приложения iconv

Даже не надо исходники приложения, достаточно интерфейс библиотеки libiconv. Или Qt. Или ICU.

Кроме того, обратную функцию реализовывать не нужно. Текст, однажды спасённый из кодировки прошлого века, не должен возвращаться обратно.

Здравствуйте, Аноним, Вы писали:

А>Требуется написать на С функции, выволняющие указанные в заголовке преобразования.
А>Как это вообще делается? Куда копать?
Вопрос из серии как превратить тёплое в мягкое.
windows1251 — кодировка символов
utf-8 — способ хранения многобайтных символов

Здравствуйте, trophim, Вы писали:

t> По поводу кода: именно это автор видимо и искал (так ведь, да?).

ТС спросил:

Как это вообще делается? Куда копать?

Ему довольно доходчиво ответили.

t> По поводу срача: ну реально из ничего начали лаяться, как-то непрофессионально, ибо не имеет никакого отношения к вопросу.

Появляется некто и начинает охать и ахать о том какие у нас программисты нехорошие. Ну захотел дать готовый код, можно дать без рассусоливаний и отсылок к ЧСВ.

t> И какая разница что есть кодировка. Мы преследуем эстетизм, корректность формулировок и вообще 'вам шашечки или ехать'?

У нас тут форум подразумевающий общение или где? Если человек допускает некорректность в формулировке и в дальнейшем на ней настаивает, не вижу причин это не обсудить

avalon 1.0rc3 rev 419, zlib 1.2.3

Здравствуйте, Аноним, Вы писали:

А>Требуется написать на С функции, выволняющие указанные в заголовке преобразования.
А>Как это вообще делается? Куда копать?

В сторону исходинков приложения iconv

Здравствуйте, Vain, Вы писали:

V>windows1251 — кодировка символов
V>utf-8 — способ хранения многобайтных символов

кодировка = способ хранения

Здравствуйте, Mucmep, Вы писали:

M> H>Он спросил куда копать, ему ответили

Чем ты не доволен, добрых дел мастер?

M> Я тебе уже ответил

, в_каждую_жопу_затычка.

Вообще-то, говорят в каждую бочку затычка. В твоем петушатнике этого не знают?

avalon 1.0rc3 rev 419, zlib 1.2.3

Здравствуйте, const_volatile, Вы писали:

_>никакие кодировки в него не засовывали. засовывали символы, которые до юникода представлялись разными кодировками. в конце концов, unicode означает UNIform enCODing, т.е. унифицированная кодировка. как после этого можно всерьёз утверждать, что юникод — не кодировка, я не понимаю.
Имя "Unicode" официально никак не расшифровывается, и конкретно в самом стандарте оперируют не байтами, а codepoint'ами. Которые уже могут быть кодированы разными способами.

Требуется написать на С функции, выволняющие указанные в заголовке преобразования.
Как это вообще делается? Куда копать?

Находим таблицу соответствия кодов win1251 и юникода. Ненадежный источник http://ru.wikipedia.org/wiki/Windows-1251
Находим описание utf-8. http://ru.wikipedia.org/wiki/UTF-8

Важны следующие строки
0x00000000 — 0x0000007F | 0xxxxxxx
0x00000080 — 0x000007FF | 110xxxxx 10xxxxxx

Строим таблицу соответствия кодов cp1251 и utf8.
Символы 0x00-0x7f переходят без изменений в код utf8. Эту часть не включаем в эту таблицу.
Символы 0x7f-0xff -> 110xxxxx 10xxxxxx. Для этой части строим таблицу соответствия. Биты для иксов выравниваются по правому краю, то есть сперва забивается второй байт а остаток в левый.

Поправочка.
_>Символы 0x80-0xff -> 110xxxxx 10xxxxxx.

Здравствуйте, Vain, Вы писали:

А>>Требуется написать на С функции, выволняющие указанные в заголовке преобразования.
А>>Как это вообще делается? Куда копать?
V>Вопрос из серии как превратить тёплое в мягкое.
V>windows1251 — кодировка символов
V>utf-8 — способ хранения многобайтных символов

ох уж эти мне теоретики... а вот педивикия говорит, что и то, и то — кодировка, опять врёт, чертовка?

ну и вот тебе самая что ни на есть практическая задача. скачал я, скажем, сериал с русскими субтитрами, файлы с субтитрами оказались в виндовой кодировке, а плеер понимает только utf-8. как тогда по-твоему назвать процесс приведения субтитров из исходного состояния к "способу хранения многобайтных символов"?

Здравствуйте, Vain, Вы писали:

V> А>Требуется написать на С функции, выволняющие указанные в заголовке преобразования.
V> А>Как это вообще делается? Куда копать?

V> Вопрос из серии как превратить тёплое в мягкое.
V> windows1251 — кодировка символов
V> utf-8 — способ хранения многобайтных символов

И то и другое — кодировки. Просто 1251 охватывает ограниченное количество символов (кодпоинтов) юникода, а utf-8 все.

avalon 1.0rc3 rev 419, zlib 1.2.3

Здравствуйте, BulatZiganshin, Вы писали:

V>>windows1251 — кодировка символов
V>>utf-8 — способ хранения многобайтных символов
BZ>кодировка = способ хранения
названа конкретная кодировка, поэтому нет

Здравствуйте, const_volatile, Вы писали:

А>>>Требуется написать на С функции, выволняющие указанные в заголовке преобразования.
А>>>Как это вообще делается? Куда копать?
V>>Вопрос из серии как превратить тёплое в мягкое.
V>>windows1251 — кодировка символов
V>>utf-8 — способ хранения многобайтных символов
_>ох уж эти мне теоретики... а вот педивикия говорит, что и то, и то — кодировка, опять врёт, чертовка?
врёт

_>ну и вот тебе самая что ни на есть практическая задача. скачал я, скажем, сериал с русскими субтитрами, файлы с субтитрами оказались в виндовой кодировке, а плеер понимает только utf-8. как тогда по-твоему назвать процесс приведения субтитров из исходного состояния к "способу хранения многобайтных символов"?
да хоть с китайскими субтитрами, кодировка языка к utf-8 не имеет ни мальнейшего отношения

Здравствуйте, hattab, Вы писали:

V>> А>Требуется написать на С функции, выволняющие указанные в заголовке преобразования.
V>> А>Как это вообще делается? Куда копать?
V>> Вопрос из серии как превратить тёплое в мягкое.
V>> windows1251 — кодировка символов
V>> utf-8 — способ хранения многобайтных символов
H>И то и другое — кодировки. Просто 1251 охватывает ограниченное количество символов (кодпоинтов) юникода, а utf-8 все.
Не надо заблуждаться, 1251 показывает отображение кодов на символы, utf-8 ничего такого не показывает

Здравствуйте, Vain, Вы писали:

V>>>windows1251 — кодировка символов
V>>>utf-8 — способ хранения многобайтных символов
BZ>>кодировка = способ хранения
V>названа конкретная кодировка, поэтому нет

разница между ними — в том, что cp1251 поддерживает только подмножество unicode

Здравствуйте, BulatZiganshin, Вы писали:

V>>>>windows1251 — кодировка символов
V>>>>utf-8 — способ хранения многобайтных символов
BZ>>>кодировка = способ хранения
V>>названа конкретная кодировка, поэтому нет
BZ>

разница между ними — в том, что cp1251 поддерживает только подмножество unicode
кодировка не включает способ хранения

Здравствуйте, Vain, Вы писали:

V> V>> Вопрос из серии как превратить тёплое в мягкое.
V> V>> windows1251 — кодировка символов
V> V>> utf-8 — способ хранения многобайтных символов

V> H>И то и другое — кодировки. Просто 1251 охватывает ограниченное количество символов (кодпоинтов) юникода, а utf-8 все.

V> Не надо заблуждаться, 1251 показывает отображение кодов на символы, utf-8 ничего такого не показывает

Совершенно четко показывает, иначе обратная трансформация была бы невозможна. Просто 1251 это однобайтовая кодировка, потому трансформация юникода происходит простейшим отображением, а utf-кодировки это кодировки мультибайтовые. Но кодировками от этого они быть не перестают.

avalon 1.0rc3 rev 419, zlib 1.2.3

Здравствуйте, Vain, Вы писали:

V> _>ох уж эти мне теоретики... а вот педивикия говорит, что и то, и то — кодировка, опять врёт, чертовка?

V> врёт

Стандарт юникода видимо тоже врет, ведь там UTF-кодировки называются Encoding forms/schemes

avalon 1.0rc3 rev 419, zlib 1.2.3

Здравствуйте, hattab, Вы писали:

V>> V>> Вопрос из серии как превратить тёплое в мягкое.
V>> V>> windows1251 — кодировка символов
V>> V>> utf-8 — способ хранения многобайтных символов
V>> H>И то и другое — кодировки. Просто 1251 охватывает ограниченное количество символов (кодпоинтов) юникода, а utf-8 все.
V>> Не надо заблуждаться, 1251 показывает отображение кодов на символы, utf-8 ничего такого не показывает
H>Совершенно четко показывает, иначе обратная трансформация была бы невозможна.
Она и невозможна. В utf-8 нигде не храниться информации о языке, только набор байт для какого-то символа из какой-то таблицы.

Здравствуйте, hattab, Вы писали:

V>> _>ох уж эти мне теоретики... а вот педивикия говорит, что и то, и то — кодировка, опять врёт, чертовка?
V>> врёт
H>Стандарт юникода видимо тоже врет, ведь там UTF-кодировки называются Encoding forms/schemes

Была названа конкретная — utf-8.

Здравствуйте, Vain, Вы писали:

V> V>> V>> Вопрос из серии как превратить тёплое в мягкое.
V> V>> V>> windows1251 — кодировка символов
V> V>> V>> utf-8 — способ хранения многобайтных символов

V> V>> H>И то и другое — кодировки. Просто 1251 охватывает ограниченное количество символов (кодпоинтов) юникода, а utf-8 все.

V> V>> Не надо заблуждаться, 1251 показывает отображение кодов на символы, utf-8 ничего такого не показывает

V> H>Совершенно четко показывает, иначе обратная трансформация была бы невозможна.

V> Она и невозможна.

Да неужели

V> В utf-8 нигде не храниться информации о языке, только набор байт для какого-то символа из какой-то таблицы.

Покажи мне, где в 1251 хранится информация о языке. Там тоже просто байты из какой-то таблицы.

Вообще, utf-8 кодирует юникод, а языковую принадлежность кодпоинтов можно определить по диапазону. Только причем тут ссылки на язык, не совсем понятно

avalon 1.0rc3 rev 419, zlib 1.2.3

Здравствуйте, Vain, Вы писали:

V> V>> _>ох уж эти мне теоретики... а вот педивикия говорит, что и то, и то — кодировка, опять врёт, чертовка?

V> V>> врёт

V> H>Стандарт юникода видимо тоже врет, ведь там UTF-кодировки называются Encoding forms/schemes

V> Была названа конкретная — utf-8.

Ну так вот стандарт почитай, там тоже говориться о вполне конкретных UTF-32, UTF-16 и UTF-8.

avalon 1.0rc3 rev 419, zlib 1.2.3

Здравствуйте, Vain, Вы писали:

V>В utf-8 нигде не храниться информации о языке, только набор байт для какого-то символа из какой-то таблицы.
таблица не какая-то, а вполне конкретная
http://en.wikibooks.org/wiki/Unicode/Character_reference/2000-2FFF (это часть большой юникодной таблицы)
у win1251 своя таблица, которая неким символам (русского языка) сопоставляет число (8 бит)
utf-8 имеет другую таблицу (юникод) и тоже сопоставляет элементам этой таблицы последовательность бит (от 8 до 32 бит)
для того, чтобы сконвертировать win1251 в utf-8 надо понять, имеются ли аналоги элементов первой таблицы во второй (в юникоде). оказывается, что в юникоде есть аналогичные символы, поэтому конвертация возможна
utf-16 и utf-8 кодируют битами эелементы одной и той же таблицы

Здравствуйте, Mucmep, Вы писали:

M> А>Требуется написать на С функции, выволняющие указанные в заголовке преобразования.
M> А>Как это вообще делается? Куда копать?

M> Блин, я фигею с наших программистов.
M> Человек задал конкретный вопрос и, вместо того, чтобы конкретно ответить на вопрос, устроили срач о том, что является кодировкой, а что нет.
M> Я думал, форум создан для помощи, а не повышении ЧСВ.

Он спросил куда копать, ему ответили

Чем ты не доволен, добрых дел мастер?

avalon 1.0rc3 rev 419, zlib 1.2.3

Здравствуйте, hattab, Вы писали:

H>Здравствуйте, Mucmep, Вы писали:

M>> А>Требуется написать на С функции, выволняющие указанные в заголовке преобразования.
M>> А>Как это вообще делается? Куда копать?

M>> Блин, я фигею с наших программистов.
M>> Человек задал конкретный вопрос и, вместо того, чтобы конкретно ответить на вопрос, устроили срач о том, что является кодировкой, а что нет.
M>> Я думал, форум создан для помощи, а не повышении ЧСВ.

H>Он спросил куда копать, ему ответили

Чем ты не доволен, добрых дел мастер?

Я тебе уже ответил

, в_каждую_жопу_затычка.

Здравствуйте, hattab, Вы писали:

H>Здравствуйте, Mucmep, Вы писали:

M>> H>Он спросил куда копать, ему ответили

Чем ты не доволен, добрых дел мастер?

M>> Я тебе уже ответил

, в_каждую_жопу_затычка.

H>Вообще-то, говорят в каждую бочку затычка. В твоем петушатнике этого не знают?

По поводу кода: именно это автор видимо и искал (так ведь, да?).
По поводу срача: ну реально из ничего начали лаяться, как-то непрофессионально, ибо не имеет никакого отношения к вопросу.
И какая разница что есть кодировка. Мы преследуем эстетизм, корректность формулировок и вообще 'вам шашечки или ехать'?

... << RSDN@Home 1.2.0 alpha 5 rev. 1495>>

Здравствуйте, Mucmep, Вы писали:

M> H>Здравствуйте, Mucmep, Вы писали:

M> M>> H>Он спросил куда копать, ему ответили

Чем ты не доволен, добрых дел мастер?

M> M>> Я тебе уже ответил

, в_каждую_жопу_затычка.

M> H>Вообще-то, говорят в каждую бочку затычка. В твоем петушатнике этого не знают?

M> Послушай, страшный тирарист, я таких как ты не одобряю и не поддерживаю. Понятное дело, вас, петухов, не развожу и разводить никогда не буду, чего вы там должны знать не в курсе. Чтобы ты не надеялся напрасно и избежать траты времени на дальнейшие намеки, скажу сразу, знакомых геев у меня тоже нет. Поэтому, не могу подогнать тебе никого кто бы распечатал тебе жопу, но ты не отчаивайся, продолжай искать и наверняка найдется кто-то, кто тебя осчастливит. Но, чтобы тебе повезло быстрее, говори прямо, что ты гей, ищешь партнера по ролевым играм, ты тирарист, партнер — ЧКист поймавший и наказывающий тирариста. А теперь сделай одолжение, с*ебись с форума и забери своих "друзей по заду", сделайте себе сайт bluemamba.com и общайтесь там, не засерайте форум своей гомосятиной, превратили rsdn в помойку для гламурных геев. Гомосеки-волшебники, имейте совесть, это сайт о программировании.

Усохни, истеричка.

avalon 1.0rc3 rev 419, zlib 1.2.3

Здравствуйте, Mucmep, Вы писали:

M>Аноним, может вам поможет
[ccode]
M>char *xcode(LPCSTR pSrcStr, UINT srcCodepage, UINT dstCodepage)
M>{
M> int wsize = MultiByteToWideChar(srcCodepage, 0, pSrcStr, -1, NULL, 0);
M> LPWSTR wbuf = (LPWSTR)mallocz(wsize*sizeof(WCHAR));
M> MultiByteToWideChar(srcCodepage, 0, pSrcStr, -1, wbuf, wsize);
M> int size = WideCharToMultiByte(dstCodepage, 0, wbuf, -1, NULL, 0, NULL, NULL);
M> LPSTR buf = (LPSTR)mallocz(size);
M> WideCharToMultiByte(dstCodepage, 0, wbuf, -1, buf, size, NULL, NULL);
M> bfree(wbuf);
M> return buf;
M>}
[/code]

Поскольку с исходном сообщении не было сказано, что решение ищется под Win32, по умолчанию предполагаем, что нужно кроссплатформенное.

Здравствуйте, c-smile, Вы писали:

CS>Короче:
CS>windows1251, utf-8, ascii, koi8 и все остальные есть транспортные кодировки unicode code points.

все же я не соглашусь с вашим мнением и поддержу идею, вызказанную Vain:
"старые" кодировки задают соответствие между кодом (байтом) и символом, причем в отрыве от юникода
кодировки изначально были созданы в отсутствии юникода, поэтому они не могут на него ссылаться
юникод был создан для того, чтобы изничтожить кодировки, т.к. с ними слишком много хлопот было
поэтому в него попытались засунуть самые распространенные кодировки, чтобы переход с кодировок на юникод был наиболее безболезненным
я вполне допускаю существование кодировки, в которой был символ, который не представим в юникоде вообще или для его представления требуется несколько юникодных code points
напомню, что для всяких умляутов, ударений, зачеркиваний существуют спец. code points, которые вносят трансормацию предыдущему символу с целью добавить в него умляут, ударение и тд.

Здравствуйте, c-smile, Вы писали:

V>>Вопрос из серии как превратить тёплое в мягкое.
V>>windows1251 — кодировка символов
V>>utf-8 — способ хранения многобайтных символов
CS>О как... "многобайтные символы" это что-то новое...
CS>Короче:
CS>windows1251, utf-8, ascii, koi8 и все остальные есть транспортные кодировки unicode code points.
CS>Кодировка может быть полная (utf-8, utf-16, GB18030 — охватывает весь unicode code point range) или частичная (windows1251, ascii, koi8).
CS>Кодировка может иметь byte code unit — windows1251, utf-8, ascii, koi8, а может иметь word code unit — utf-16.
CS>Кодировка может иметь variable number of code units per code point — utf-8, utf-16, GB18030... , а может иметь one code unit per code point — windows1251, koi8, utf-32.
Кто вам мешает туда запихнуть символы из разных таблиц?

Здравствуйте, uzhas, Вы писали:

CS>>Короче:
CS>>windows1251, utf-8, ascii, koi8 и все остальные есть транспортные кодировки unicode code points.
U>все же я не соглашусь с вашим мнением и поддержу идею, вызказанную Vain:
U>"старые" кодировки задают соответствие между кодом (байтом) и символом, причем в отрыве от юникода
Это не так. Были "старые" кодировки с композитными символами (для арабского), просто много менее распространены.

U>кодировки изначально были созданы в отсутствии юникода, поэтому они не могут на него ссылаться
Тем не менее, при стандартизации Юникода позаботились, чтобы все символы "старых" кодировок попали в стандарт (насколько я знаю, это не сразу получилось, но сейчас в стандарте большинство символов есть).

U>юникод был создан для того, чтобы изничтожить кодировки, т.к. с ними слишком много хлопот было
Нет, Юникод был создан для стандартизации набора символов. А кодировки — это не более чем способ передачи этих символов.

U>напомню, что для всяких умляутов, ударений, зачеркиваний существуют спец. code points, которые вносят трансормацию предыдущему символу с целью добавить в него умляут, ударение и тд.
Это называется "композитные символы", и не имеет никакого отношения к кодировкам.

Здравствуйте, uzhas, Вы писали:

CS>>Короче:
CS>>windows1251, utf-8, ascii, koi8 и все остальные есть транспортные кодировки unicode code points.
U>все же я не соглашусь с вашим мнением и поддержу идею, вызказанную Vain:
U>"старые" кодировки задают соответствие между кодом (байтом) и символом, причем в отрыве от юникода

и юникод задаёт соотвествие между кодом (набором байт) и символом.

U>кодировки изначально были созданы в отсутствии юникода, поэтому они не могут на него ссылаться

и что?

U>юникод был создан для того, чтобы изничтожить кодировки, т.к. с ними слишком много хлопот было
U>поэтому в него попытались засунуть самые распространенные кодировки, чтобы переход с кодировок на юникод был наиболее безболезненным

никакие кодировки в него не засовывали. засовывали символы, которые до юникода представлялись разными кодировками. в конце концов, unicode означает UNIform enCODing, т.е. унифицированная кодировка. как после этого можно всерьёз утверждать, что юникод — не кодировка, я не понимаю.

U>напомню, что для всяких умляутов, ударений, зачеркиваний существуют спец. code points, которые вносят трансормацию предыдущему символу с целью добавить в него умляут, ударение и тд.

хм. можешь как-то подтвердить это? просто такое поведение противоречит принципам, на основе которых создавался уникод. я допускаю, что могут быть code points, которые меняют представление последующих знаков (собственно utf-8 примерно так и построен), но никак не предыдущих. по-твоему, если данные посимвольно отправляются на печать, то получив полный символ нельзя его сразу напечатать, потому что следом может идти модификатор? вобщем хотелось бы ссылочку на стандарт или какой-нибудь rfc.

Здравствуйте, Vain, Вы писали:

V>>>Вопрос из серии как превратить тёплое в мягкое.
V>>>windows1251 — кодировка символов
V>>>utf-8 — способ хранения многобайтных символов

кодировка — это в том числе и "способ хранения". просто чтобы ты знал ^_^

CS>>О как... "многобайтные символы" это что-то новое...
V>Вы с этим не согласны?

нет конечно. "символ" — понятие абстрактное, с битами и байтами никак не связанное. а вот для хранения и передачи символов и их последовательностей как раз и существуют разнообразные кодировки. и только в рамках конкретной кодировки можно говорить о количестве байт в представлении символов. и, кстати, кодировки бывают не только компьютерные. азбука морзе — это тоже кодировка, изобретённая задолго до появления термина "байт". вобщем я честно говоря не понимаю ни твоей позиции, ни упёртости, с которой ты её отстаиваешь. такое ощущение, что у тебя в голове какие-то свои определения понятий "символы" и "кодировки", которые ничего общего с общепринятыми не имеют.

Здравствуйте, const_volatile, Вы писали:

V>>>>Вопрос из серии как превратить тёплое в мягкое.
V>>>>windows1251 — кодировка символов
V>>>>utf-8 — способ хранения многобайтных символов
_>кодировка — это в том числе и "способ хранения". просто чтобы ты знал ^_^
Кодировка языка это просто табличка символов, которую можно представлять как угодно. просто чтоб знал ты.

CS>>>О как... "многобайтные символы" это что-то новое...
V>>Вы с этим не согласны?
_>нет конечно. "символ" — понятие абстрактное, с битами и байтами никак не связанное.
"цвет" понятие абстрактное, с битами и байтами не связанное.

_>а вот для хранения и передачи символов и их последовательностей как раз и существуют разнообразные кодировки. и только в рамках конкретной кодировки можно говорить о количестве байт в представлении символов. и, кстати, кодировки бывают не только компьютерные. азбука морзе — это тоже кодировка, изобретённая задолго до появления термина "байт".
Это ты щас к чему привёл? Мне нужно клинопись в качестве ответного примера привести? Тоже ведь за долго до.

_>вобщем я честно говоря не понимаю ни твоей позиции, ни упёртости, с которой ты её отстаиваешь. такое ощущение, что у тебя в голове какие-то свои определения понятий "символы" и "кодировки", которые ничего общего с общепринятыми не имеют.
Это скорее у вас котлеты с мухами подают, у нас как раз такое не принято.

Здравствуйте, Vain, Вы писали:

V>>>>>Вопрос из серии как превратить тёплое в мягкое.
V>>>>>windows1251 — кодировка символов
V>>>>>utf-8 — способ хранения многобайтных символов
_>>кодировка — это в том числе и "способ хранения". просто чтобы ты знал ^_^
V>Кодировка языка это просто табличка символов, которую можно представлять как угодно.

это и есть твоё определение понятия "кодировка"? мда, "табличка", "как угодно"... детский сад, штаны на лямках. впрочем, даже в рамках этого убого определения utf-8 таки является кодировкой.

а теперь что понимает под кодировкой реальный мир. во-первых, в рамках CS/IT оперируют понятием "кодировки" не "языков", а "символов". "кодировка языка" — это юстас-алексу, шифрограммы и прочая не относящаяся к теме беллетристика. во-вторых, кодировкой символов называют соглашение о соответствии некоторого набора символов набору цифр, или кодов. согласно этому определению (общепринятому в computer science), и ASCII, и KOI-8, и Windows-1251, и UTF-8 — это всё кодировки. если же у тебя другое мнение на этот счёт, остаётся только порадоваться за твой живой ум, однако вступать в дискуссии по-моему опрометчиво с твоей стороны. в конце концов, непонимание основ чревато в нашей профессии. сначала незнание определения, потом несоответствие стандарту, а потом -бац- очередной шедевр вроде internet explorer 6.

CS>>>>О как... "многобайтные символы" это что-то новое...
V>>>Вы с этим не согласны?
_>>нет конечно. "символ" — понятие абстрактное, с битами и байтами никак не связанное.
V>"цвет" понятие абстрактное, с битами и байтами не связанное.

само собой. кстати, если юникод худо-бедно охватывает символы и знаки почти всех народов мира, то с цветами всё не так радужно, к rgb сводится только огрызок цветового пространства Lab, не говоря уж о несовместимости rgb-профилей разных устройств ^_^

_>>а вот для хранения и передачи символов и их последовательностей как раз и существуют разнообразные кодировки. и только в рамках конкретной кодировки можно говорить о количестве байт в представлении символов. и, кстати, кодировки бывают не только компьютерные. азбука морзе — это тоже кодировка, изобретённая задолго до появления термина "байт".
V>Это ты щас к чему привёл? Мне нужно клинопись в качестве ответного примера привести? Тоже ведь за долго до.

к тому, что у тебя каша в голове и ты понятия не имеешь что такое "символы" и их "кодировки". ну и пример твой, разумеется, ошибочен. азбука морзе — это общепринятое соглашение о соответствии символов латинского алфавита радиосигналам. всё в рамках вышеприведённого определения. клинопись же — это иероглифическая письменность, графическое представление устной речи, так же как и современные иероглифы. я, кстати, не удивлюсь, если в юникоде найдётся представление символов клинописи ^_^

_>>вобщем я честно говоря не понимаю ни твоей позиции, ни упёртости, с которой ты её отстаиваешь. такое ощущение, что у тебя в голове какие-то свои определения понятий "символы" и "кодировки", которые ничего общего с общепринятыми не имеют.

Здравствуйте, uzhas, Вы писали:

U>Здравствуйте, c-smile, Вы писали:

CS>>Короче:
CS>>windows1251, utf-8, ascii, koi8 и все остальные есть транспортные кодировки unicode code points.

U>все же я не соглашусь с вашим мнением и поддержу идею, вызказанную Vain:
U>"старые" кодировки задают соответствие между кодом (байтом) и символом, причем в отрыве от юникода

Я не знаю что ты имеешь ввиду под словом "символ" если честно.
Есть понятие glyph — начертание или фрагмент начертания. Один или несколько glyphs могут образовывать символ или букву.
Говорят что для всех составных glyphs в unicode есть эквивалентные атомарные code points.
Это близко к тому что ты имеешь ввиду под "байт-символ"?

"Старых" кодировок было и есть море. "Старые" китайские/японские кодировки все multi-byte по определению.
Т.е. не ясно что ты имеешь ввиду.

И вообще не ясно что означает "старые". Например для русского Windows-1251 кодировка более оптимальна —
текст меньше места занимает. UTF не всегда имеет смысл использовать. Я не думаю что это дело устареет.

U>кодировки изначально были созданы в отсутствии юникода, поэтому они не могут на него ссылаться

Unicode это просто registry более менее всех живых и некоторых мертвых символов и их составных частей.
Каждому "символу" в unicode присвоено уникальное имя и эквивалентный числовой код.
Кодировка есть maping кодов последовательностей на имена "символов".
Поэтому современное формальное описание кодировки ссылается на это имя и/или код. См. http://en.wikipedia.org/wiki/Windows-1251

U>юникод был создан для того, чтобы изничтожить кодировки, т.к. с ними слишком много хлопот было

Изивините, но это бред. unicode это database и плюс несколько алгоритмов типа BiDi и всё.
Как database может "изничтожить кодировки"?

Если ты про UTF то это один из способов транспортного multibyte кодирования фиксированных алфавитов — изобретение Кейта Томпсона (отца изобретателя Unix) и Роберта Пайка (сейчас в Google делает язык Go). И кстати UTF может использоваться для передачи не только unicode code points.

Здравствуйте, const_volatile, Вы писали:

_>>>кодировка — это в том числе и "способ хранения". просто чтобы ты знал ^_^
V>>Кодировка языка это просто табличка символов, которую можно представлять как угодно.
_>это и есть твоё определение понятия "кодировка"? мда, "табличка", "как угодно"... детский сад, штаны на лямках.
Проще надо быть, а штаны на лямках оставте себе, доносите.

_>а теперь что понимает под кодировкой реальный мир. во-первых, в рамках CS/IT оперируют понятием "кодировки" не "языков", а "символов". "кодировка языка" — это юстас-алексу, шифрограммы и прочая не относящаяся к теме беллетристика.
Вода, вода..

_>во-вторых, кодировкой символов называют соглашение о соответствии некоторого набора символов набору цифр, или кодов.
Кеп?

_>ASCII, и KOI-8, и Windows-1251, и UTF-8 — это всё кодировки.
UTF — формат преобразования Юникода, но не набор символов (кодировка), это очевидно.

_>если же у тебя другое мнение на этот счёт, остаётся только порадоваться за твой живой ум, однако вступать в дискуссии по-моему опрометчиво с твоей стороны.
Это публичный форум, хочу вступаю, хочу нет.
_>в конце концов, непонимание основ чревато в нашей профессии.
угу

_>сначала незнание определения,
Какого определения, из википедии чтоли? Там много иногда несоответствии, нашли что преводить в качестве источника. По-английски UTF это именно формат, предлагаю так и переводит его — формат и не пудрить людям мозги.

_>потом несоответствие стандарту, а потом -бац- очередной шедевр вроде internet explorer 6.
до сих пор в инете используют и не жалуются.

CS>>>>>О как... "многобайтные символы" это что-то новое...
V>>>>Вы с этим не согласны?
_>>>нет конечно. "символ" — понятие абстрактное, с битами и байтами никак не связанное.
V>>"цвет" понятие абстрактное, с битами и байтами не связанное.
_>само собой. кстати, если юникод худо-бедно охватывает символы и знаки почти всех народов мира, то с цветами всё не так радужно, к rgb сводится только огрызок цветового пространства Lab, не говоря уж о несовместимости rgb-профилей разных устройств ^_^
не по теме решил блестнуть?

_>>>а вот для хранения и передачи символов и их последовательностей как раз и существуют разнообразные кодировки. и только в рамках конкретной кодировки можно говорить о количестве байт в представлении символов. и, кстати, кодировки бывают не только компьютерные. азбука морзе — это тоже кодировка, изобретённая задолго до появления термина "байт".
V>>Это ты щас к чему привёл? Мне нужно клинопись в качестве ответного примера привести? Тоже ведь за долго до.
_>к тому, что у тебя каша в голове и ты понятия не имеешь что такое "символы" и их "кодировки".
И расскажите, ну ёще.. про этот знак, с двумя точками наверху..

_>ну и пример твой, разумеется, ошибочен.
разумеется!

_>азбука морзе — это общепринятое соглашение о соответствии символов латинского алфавита..
О как! А азбука любого другого алфавита, это конечно не общепринятое соглашение, так третьесортная поделка на коленке..
_>..радиосигналам
ну а любой алфавит соответствие волнам мозга.. Тоже ведь не хуже, правда?

_>всё в рамках вышеприведённого определения. клинопись же — это иероглифическая письменность, графическое представление устной речи, так же как и современные иероглифы.
Ты подписаться забыл — ваш КО.

_>я, кстати, не удивлюсь, если в юникоде найдётся представление символов клинописи ^_^
уже найдётся, добавили.

_>>>вобщем я честно говоря не понимаю ни твоей позиции, ни упёртости, с которой ты её отстаиваешь. такое ощущение, что у тебя в голове какие-то свои определения понятий "символы" и "кодировки", которые ничего общего с общепринятыми не имеют.
Моё определение чёткое — UTF — формат, windows1251 — character encoding, не больше, не меньше. А у вас как раз каша — всё называть кодировкой, себя и других ещё путаете.

Здравствуйте, uzhas, Вы писали:

V>>В utf-8 нигде не храниться информации о языке, только набор байт для какого-то символа из какой-то таблицы.
U>таблица не какая-то, а вполне конкретная
U>http://en.wikibooks.org/wiki/Unicode/Character_reference/2000-2FFF (это часть большой юникодной таблицы)
U>у win1251 своя таблица, которая неким символам (русского языка) сопоставляет число (8 бит)
U>utf-8 имеет другую таблицу (юникод) и тоже сопоставляет элементам этой таблицы последовательность бит (от 8 до 32 бит)
Так кто вам мешает туда сохранять эту таблицу или их набор, или вы собрались все языки поддерживать? Так на уровне обычных программ это неподъёмная задача и не у всех есть возможность пользовать готовые библиотеки, которые здесь называли.
U>для того, чтобы сконвертировать win1251 в utf-8 надо понять, имеются ли аналоги элементов первой таблицы во второй (в юникоде). оказывается, что в юникоде есть аналогичные символы, поэтому конвертация возможна
U>utf-16 и utf-8 кодируют битами эелементы одной и той же таблицы
Если вым задан набор языков в вашей программе, которые надо поддержать, то резонно встаёт вопрос, зачем это делать для всех языков?

Здравствуйте, Vain, Вы писали:

_>>кодировкой символов называют соглашение о соответствии некоторого набора символов набору цифр, или кодов.
V>Кеп?

это определние понятия "кодировка символов".

_>>ASCII, и KOI-8, и Windows-1251, и UTF-8 — это всё кодировки.
V>UTF — формат преобразования Юникода,

ок, тогда KOI8 и win1251 — форматы преобразования кириллицы. это что-нибудь объясняет? нет. к чему тогда огород городить, вводить ещё одно понятие "формат"? что такое формат по-твоему, расскажи тогда, если уж определения кодировки от тебя добиться невозможно.

V>но не набор символов (кодировка), это очевидно.

КОМУ это очевидно? упёртым баранам? "набор символов" и "кодировка" близкие, но не взаимозаменяемые понятия. см. определение выше. кодировка предписывает, каким образом символ из набора отображается на последовательность битиков. я уж не знаю, как можно доступнее объяснить.

_>>сначала незнание определения,
V>Какого определения, из википедии чтоли? Там много иногда несоответствии, нашли что преводить в качестве источника.

в википедии много херни, особенно в политических и исторических разделах, но понятия, относящиеся к computer science, там разруливаются чётко и недвусмысленно. но если ты всё-таки ей не доверяешь, вот тебе ссылка на сайт Консорциума Юникод:

Q: What is the definition of UTF-8?

A: UTF-8 is the byte-oriented encoding form of Unicode.

перевожу: ВОПРОС: Что таеое UTF-8? ОТВЕТ: UTF-8 — это байт-ориентированная кодировка Юникода. ещё вопросы?

V>По-английски UTF это именно формат, предлагаю так и переводит его — формат и не пудрить людям мозги.

речь не о переводе аббревиатуры, а о значении терминов.

_>>потом несоответствие стандарту, а потом -бац- очередной шедевр вроде internet explorer 6.
V>до сих пор в инете используют и не жалуются.

тебе просто не приходилось общаться с веб-дизайнерами, которые верстают страницы и вынуждены поддерживать это говно мамонта, плюющее на все стандарты.

_>>>>вобщем я честно говоря не понимаю ни твоей позиции, ни упёртости, с которой ты её отстаиваешь. такое ощущение, что у тебя в голове какие-то свои определения понятий "символы" и "кодировки", которые ничего общего с общепринятыми не имеют.
V>Моё определение чёткое — UTF — формат, windows1251 — character encoding, не больше, не меньше.

это не чёткое определение, это ничего не значащий набор слов, вроде масло масляное. ты зачем-то в дополнение к понятиям "символы" и "кодировки", о которых речь шла до этого, вводишь ещё одно своё понятие "формат", причем не удосужившись дать ему определение в рамках обсуждаемой темы. мы так до второго пришествия можем переписываться, и ты каждый раз будешь изобретать всё новые слова для UTF-8, лишь бы не называть её кодировкой.

Здравствуйте, const_volatile, Вы писали:

_>ок, тогда KOI8 и win1251 — форматы преобразования кириллицы. это что-нибудь объясняет? нет. к чему тогда огород городить, вводить ещё одно понятие "формат"?
Я ничего нового не вводил, форматом он изначально был.

_>что такое формат по-твоему, расскажи тогда, если уж определения кодировки от тебя добиться невозможно.
Сколько можно повторять? Способ хранения этой самой кодировки.

V>>но не набор символов (кодировка), это очевидно.
_>КОМУ это очевидно? упёртым баранам? "набор символов" и "кодировка" близкие, но не взаимозаменяемые понятия. см. определение выше. кодировка предписывает, каким образом символ из набора отображается на последовательность битиков. я уж не знаю, как можно доступнее объяснить.
Кодировка не объясняет как эти битики хранить.

_>>>сначала незнание определения,
V>>Какого определения, из википедии чтоли? Там много иногда несоответствии, нашли что преводить в качестве источника.

_>в википедии много херни, особенно в политических и исторических разделах, но понятия, относящиеся к computer science, там разруливаются чётко и недвусмысленно. но если ты всё-таки ей не доверяешь, вот тебе ссылка на сайт Консорциума Юникод:
_>

Q: What is the definition of UTF-8?
_>A: UTF-8 is the byte-oriented encoding form of Unicode.

_>перевожу: ВОПРОС: Что таеое UTF-8? ОТВЕТ: UTF-8 — это байт-ориентированная кодировка Юникода. ещё вопросы?
character encoding и byte-oriented encoding form можешь отличить?

_>тебе просто не приходилось общаться с веб-дизайнерами, которые верстают страницы и вынуждены поддерживать это говно мамонта, плюющее на все стандарты.
Я сам был web-писателем, так что в курсе.

_>это не чёткое определение, это ничего не значащий набор слов, вроде масло масляное. ты зачем-то в дополнение к понятиям "символы" и "кодировки", о которых речь шла до этого, вводишь ещё одно своё понятие "формат", причем не удосужившись дать ему определение в рамках обсуждаемой темы.
Ничего нового я не вводил, прочитайте ещё раз аббревиатуру UTF.

_>мы так до второго пришествия можем переписываться, и ты каждый раз будешь изобретать всё новые слова для UTF-8, лишь бы не называть её кодировкой.
я уже дал конкретную расшифровку слова "кодировка" — табличка кодов символов (или отображение символов на их коды), в которой не указано как эти коды хранить.

Здравствуйте, Аноним, Вы писали:

А>Требуется написать на С функции, выволняющие указанные в заголовке преобразования.
А>Как это вообще делается? Куда копать?
Здесь обсуждалось правда перекодировка только в одну сторону
здесь

On 27.06.2011 14:15, Vain wrote:

> V>>В utf-8 нигде не храниться информации о языке, только набор байт для
> какого-то символа из *какой-то* таблицы.

Вообще-то зря ты спориш, теоретек.
utf-8 подразумевает хранение символов во вполне конкретной кодировке --
Unicode.

Posted via RSDN NNTP Server 2.1 beta

Здравствуйте, MasterZiv, Вы писали:

>> V>>В utf-8 нигде не храниться информации о языке, только набор байт для
>> какого-то символа из *какой-то* таблицы.
MZ>Вообще-то зря ты спориш, теоретек.
MZ>utf-8 подразумевает хранение символов во вполне конкретной кодировке --
MZ>Unicode.
Я уже сказал что хранить символы там можно любые.

Здравствуйте, MasterZiv, Вы писали:

MZ>On 27.06.2011 14:15, Vain wrote:

>> V>>В utf-8 нигде не храниться информации о языке, только набор байт для
>> какого-то символа из *какой-то* таблицы.

MZ>Вообще-то зря ты спориш, теоретек.
MZ>utf-8 подразумевает хранение символов во вполне конкретной кодировке --
MZ>Unicode.

Если уж речь пошла о терминологии Unicode, то encoded character (coded character) — это абстрактный символ, которому сопоставили число (code point), не говоря ничего о том, как это число представляется в компьютере (п. 2.4, 3.4 стандарта). Если переводить дословно, то да, Unicode — это "кодировка". Но дальше, в п. 2.5, вводится термин encoding form, означающий, грубо говоря, способ двоичного представления каждого code point. UTF-8, UTF-16 (BE и LE), UTF-32 (BE и LE) — это encoding forms, что тоже можно перевести как "кодировка".

Поскольку cp1251 и прочие не имеют отношения к Unicode, то и соответствующая терминология к ним неприменима. cp1251 пропускает этап "code point", сразу назначая символам двоичное представление. Кроме того, cp1251 ограничивает набор представимых символов и является, согласно терминологии POSIX (см. п. 3.90, 3.98), "coded character set".

Здравствуйте, Mucmep, Вы писали:

M>>> H>Он спросил куда копать, ему ответили

Чем ты не доволен, добрых дел мастер?
M>>> Я тебе уже ответил

, в_каждую_жопу_затычка.
H>>Вообще-то, говорят в каждую бочку затычка. В твоем петушатнике этого не знают?
M>Послушай, страшный тирарист, я таких как ты не одобряю и не поддерживаю. Понятное дело, вас, петухов, не развожу и разводить никогда не буду, чего вы там должны знать не в курсе. Чтобы ты не надеялся напрасно и избежать траты времени на дальнейшие намеки, скажу сразу, знакомых геев у меня тоже нет. Поэтому, не могу подогнать тебе никого кто бы распечатал тебе жопу, но ты не отчаивайся, продолжай искать и наверняка найдется кто-то, кто тебя осчастливит. Но, чтобы тебе повезло быстрее, говори прямо, что ты гей, ищешь партнера по ролевым играм, ты тирарист, партнер — ЧКист поймавший и наказывающий тирариста. А теперь сделай одолжение, с*ебись с форума и забери своих "друзей по заду", сделайте себе сайт bluemamba.com и общайтесь там, не засерайте форум своей гомосятиной, превратили rsdn в помойку для гламурных геев. Гомосеки-волшебники, имейте совесть, это сайт о программировании.
Вас уже посчитали..

	От:	Mucmep
	Дата:	26.06.11 16:06
	Оценка:	-2

От:	c-smile	http://terrainformatica.com
Дата:	26.06.11 17:45
Оценка:	6 (1) +3

	От:	Mucmep
	Дата:	26.06.11 09:08
	Оценка:	+2 -2

	От:	Centaur
	Дата:	24.06.11 15:09
	Оценка:	+1

От:	Vain	google.ru
Дата:	24.06.11 20:19
Оценка:	+1 -1

От:	kaa.python	РСДН профессионально мёртв и завален ватой.
Дата:	24.06.11 12:58
Оценка:	1 (1)

	От:	BulatZiganshin
	Дата:	25.06.11 09:08
	Оценка:	-1

От:	Flegmatic	http://polycode.livejournal.com
Дата:	01.07.11 13:39
Оценка:

	От:	Cyberax
	Дата:	27.06.11 00:10
	Оценка:	+1

	От:	const_volatile
	Дата:	27.06.11 02:27
	Оценка: