Re[2]: Чтение файлов в кодировке utf8 (linux+C++)

Здравствуйте, Roman Odaisky, Вы писали:

RO>Здравствуйте, Vostok, Вы писали:

V>>Решил озадачится этим вопросом. Прочитал с форумов rsdn про фасеты, решил использовать из набора boost: utf8_codecvt_facet.

RO>В большинстве случаев UTF-8 можно читать в char и работать так же, как и с ASCII.

Да, конечно, полностью с вами согласен. Я так сначала и сделал. Но возникла следующая проблема. У меня в файле с кодировкой utf8 (это данность, к сожалению, а может и благо) содержатся английские и русские слова, а так же числа и прочая разнородная информация. Далее я делю файл на лексемы и получаю массивы русских/английских слов. Ну и, естественно, когда я пытаюсь определить длину слов, которые хранятся в виде string, то для русских слов размер, конечно, определяется некорректно. Вот и я решил исправить всё кардинально: читать всё в utf8 в wstring и получать правильные длины слов.

	От:	Vostok
	Дата:	18.08.09 10:46
	Оценка: