Re[2]: Чтение файлов в кодировке utf8 (linux+C++)
От: Vostok Россия  
Дата: 18.08.09 10:46
Оценка:
Здравствуйте, Roman Odaisky, Вы писали:

RO>Здравствуйте, Vostok, Вы писали:


V>>Решил озадачится этим вопросом. Прочитал с форумов rsdn про фасеты, решил использовать из набора boost: utf8_codecvt_facet.


RO>В большинстве случаев UTF-8 можно читать в char и работать так же, как и с ASCII.


Да, конечно, полностью с вами согласен. Я так сначала и сделал. Но возникла следующая проблема. У меня в файле с кодировкой utf8 (это данность, к сожалению, а может и благо) содержатся английские и русские слова, а так же числа и прочая разнородная информация. Далее я делю файл на лексемы и получаю массивы русских/английских слов. Ну и, естественно, когда я пытаюсь определить длину слов, которые хранятся в виде string, то для русских слов размер, конечно, определяется некорректно. Вот и я решил исправить всё кардинально: читать всё в utf8 в wstring и получать правильные длины слов.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.