Re: детект языка по юникоду
От: Dair Россия  
Дата: 09.06.16 18:10
Оценка: 3 (1)
Здравствуйте, makdak, Вы писали:

M>есть текст в юникоде, нужно определить к какому языку(вм) может относиться каждый символ?


Довольно несложно написать самому, думаю.

Таблица вот: http://jrgraphix.net/research/unicode_blocks.php
Re: детект языка по юникоду
От: ononim  
Дата: 13.06.16 12:21
Оценка: 3 (1)
M>С помощью какой либы можно сделать такое:
M>есть текст в юникоде, нужно определить к какому языку(вм) может относиться каждый символ?
libtextcat
Как много веселых ребят, и все делают велосипед...
Re[3]: детект языка по юникоду
От: Ops Россия  
Дата: 13.06.16 21:16
Оценка: 3 (1)
Здравствуйте, makdak, Вы писали:

M>и т.п. символов.


Что это значит? Цифры и пунктуацию легко отделят обычные регекспы. Но есть еще псевдографика, символы типа © ™ и т.п., математические (которые могут совпадать, например, с греческим или ивритом), смайлы, другие символы. Что именно нужно отделять?

Тут ведь главная задача формализовать твои требования, иначе никакая библиотека-всемогутор не поможет.
Переубедить Вас, к сожалению, мне не удастся, поэтому сразу перейду к оскорблениям.
Re[5]: детект языка по юникоду
От: chaotic-kotik  
Дата: 14.06.16 11:42
Оценка: 2 (1)
M>нужно отделить [a-zA-Z](буквы из алфавита. у всех же народов он есть?) от остальных. или хотя б для большинства современных. для дальнейшего вывода на экран.
M>регекспы-тоже думал о них, но оставил этот вариант на последок, т.к. думаю это ресурсоемко и не удобно(хотя не пробовал еще)


std::iswprint?
детект языка по юникоду
От: makdak  
Дата: 09.06.16 17:55
Оценка:
всем привет!

С помощью какой либы можно сделать такое:
есть текст в юникоде, нужно определить к какому языку(вм) может относиться каждый символ?
Re: детект языка по юникоду
От: chaotic-kotik  
Дата: 10.06.16 09:55
Оценка:
M>С помощью какой либы можно сделать такое:
M>есть текст в юникоде, нужно определить к какому языку(вм) может относиться каждый символ?

Если нужно реализовать определение языка по тексту, то лучше воспользоваться готовой библиотекой (они обычно работают на основе статистических методов и содержат в себе модели большинства языков).
Re[2]: детект языка по юникоду
От: makdak  
Дата: 10.06.16 13:14
Оценка:
Здравствуйте, chaotic-kotik, Вы писали:

CK>Если нужно реализовать определение языка по тексту, то лучше воспользоваться готовой библиотекой (они обычно работают на основе статистических методов и содержат в себе модели большинства языков).


какие можете посоветовать?
еще было б не плохо если б эта либа умела отделять буквы от цифр, знаков пунктуации и т.п. символов.
Отредактировано 10.06.2016 13:18 makdak . Предыдущая версия .
Re[4]: детект языка по юникоду
От: makdak  
Дата: 14.06.16 08:01
Оценка:
Здравствуйте, Ops, Вы писали:

Ops>Что это значит? Цифры и пунктуацию легко отделят обычные регекспы. Но есть еще псевдографика, символы типа © ™ и т.п., математические (которые могут совпадать, например, с греческим или ивритом), смайлы, другие символы. Что именно нужно отделять?


Ops>Тут ведь главная задача формализовать твои требования, иначе никакая библиотека-всемогутор не поможет.

нужно отделить [a-zA-Z](буквы из алфавита. у всех же народов он есть?) от остальных. или хотя б для большинства современных. для дальнейшего вывода на экран.
регекспы-тоже думал о них, но оставил этот вариант на последок, т.к. думаю это ресурсоемко и не удобно(хотя не пробовал еще)
Re[6]: детект языка по юникоду
От: makdak  
Дата: 16.06.16 03:09
Оценка:
Здравствуйте, chaotic-kotik, Вы писали:


CK>std::iswprint?


не годитс. хотя бы из за плавающей размерности wchar_t на разных платформах
Re[4]: детект языка по юникоду
От: Erop Россия  
Дата: 30.06.16 01:30
Оценка:
Цыфры ещё китайские бывают, и настоящие арабские, например.
RSDN for Windows Phone 1.5.0.0 WinPhone71_Release_20130421.1
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.