Здравствуйте, Went, Вы писали:
W>А, то есть некоторые символы могут быть записаны последовательностями 32-битных чаров, но для них, как правило, существует одночаровый эквивалент (кроме самых экзотических случаев)?
Можно и так сказать. ICU умеет приводить различные варианты записи таких символов к одному варианту когда это возможно.
http://userguide.icu-project.org/transforms/normalization