ABBYY попыталась реализовать полный синтаксический и семантический разбор текста, решив те проблемы, на которые у компьютерных лингвистов сорок лет назад не хватило сил и вычислительных мощностей. В результате появилась Compreno — система понимания, анализа и перевода текстов на естественных языках.
Она включает в себя описание глубинной структуры языка — соотношение используемых в нем смыслов и взаимосвязи между ними. Глубинная структура универсальна для всех языков, поскольку во всех культурах люди используют примерно одни и те же предметы и совершают одни и те же действия.
Хочешь быть счастливым — будь им!
Без булдырабыз!!!
Здравствуйте, LaptevVV, Вы писали:
LVV>...В результате появилась Compreno — система понимания, анализа и перевода текстов на естественных языках.
Осталось только посмотреть примеры переводов с одного языка на другой, осуществлённых Compreno, чтобы убедиться, что это не очередная рекламная статья Abbyy
Здравствуйте, LaptevVV, Вы писали:
LVV>Глубинная структура универсальна для всех языков, поскольку во всех культурах люди используют примерно одни и те же предметы и совершают одни и те же действия.
Это не новость. Современные системы перевода практически все работают именно через внутреннее представление: сначала текст на исходном языке парсится и разбирается, определяется смысл фраз и слов (часто при этом используются словари идиом и т.п.). Получается некое внутреннее представление. А затем это внутреннее представление переводится в целевой язык.
Кстати, в качестве промежуточного представления, по слухам, иногда используется вполне себе самостоятельный искусственный язык (например, где-то читал, что ложбан к какой-то системе перевода используют в качестве промежуточного).
А, еще есть метод попарного перевода: там берется исходный текст и по большому набору правил переводится непосредственно в целевой язык, минуя промежуточной представление (т.н. "метод передачи"). Недостаток такого подхода очевиден: для каждой пары языков систему приходится разрабатывать отдельно, да и качество перевода может сильно отличаться.
В общем, громких слов много, смысла мало. "Компания ABBYY изобрела новый, революционный метод передвижения с помощью двухколесной машины с педалями!".
Здравствуйте, LaptevVV, Вы писали:
LVV>Глубинная структура универсальна для всех языков, поскольку во всех культурах люди используют примерно одни и те же предметы и совершают одни и те же действия.
Интересно, с чего они взяли, что глубинная структура универсальна?
Это похоже на профанацию.
LVV>>Глубинная структура универсальна для всех языков, поскольку во всех культурах люди используют примерно одни и те же предметы и совершают одни и те же действия.
HH>Интересно, с чего они взяли, что глубинная структура универсальна? HH>Это похоже на профанацию.
А я думаю, что это — правильно.
В естественных языках очень похоже, как в искусственных.
Вот есть императивные и функциональные языки.
У них та самая глубинная структура — разная.
Но у языков одной группы (например, императивных) глубинная структура — одна.
В естественных аналогично.
Есть алфавитное письмо, а есть иероглифы — у них структура разная.
Но если мы возьмем алфавитное письмо, то в нем, на мой взгляд, глубинная структура понятий одна.
Можно еще уточнить. Например, возмем кириллические и романо-германские.
Кириллические между собой больше похожи, чем на романо-германские.
Я думаю — как-то так.
Хочешь быть счастливым — будь им!
Без булдырабыз!!!
Здравствуйте, LaptevVV, Вы писали:
LVV>Есть алфавитное письмо, а есть иероглифы — у них структура разная. LVV>Но если мы возьмем алфавитное письмо, то в нем, на мой взгляд, глубинная структура понятий одна.
Мне казалось, что смысл зависит от языка, а не от того, алфавитное письмо или иероглифы.
Если почитать Смирнова "Логику смысла", он как раз пишет, что процедура смыслополагания в арабском языке отличается от европейских языков.
Попытка грести всех под одну гребенку приведет к потере смысла, характерного для данного языка.
Здравствуйте, HrorH, Вы писали:
HH>Здравствуйте, LaptevVV, Вы писали:
LVV>>Есть алфавитное письмо, а есть иероглифы — у них структура разная. LVV>>Но если мы возьмем алфавитное письмо, то в нем, на мой взгляд, глубинная структура понятий одна.
HH>Мне казалось, что смысл зависит от языка, а не от того, алфавитное письмо или иероглифы. HH>Если почитать Смирнова "Логику смысла", он как раз пишет, что процедура смыслополагания в арабском языке отличается от европейских языков. HH>Попытка грести всех под одну гребенку приведет к потере смысла, характерного для данного языка.
Нужно сделать скидку на неграмотность журналиста. Может быть, речь шла о романо-германских языках, а журналюга подал это как унивесальная схема вообще для всех языков. Что, естественно, неверно.
Хочешь быть счастливым — будь им!
Без булдырабыз!!!
Здравствуйте, LaptevVV, Вы писали:
LVV>Вот есть императивные и функциональные языки. LVV>У них та самая глубинная структура — разная. LVV>Но у языков одной группы (например, императивных) глубинная структура — одна.
Уже различие между managed и unmanaged это уже тотально разная структура.
LVV>В естественных аналогично.
Какой структурой передать универсальным образом, что в одних языках blue — это голубой, синий или наводящий грусть, а в других голубой — может быть характеристикой половой ориентации?
Какой структурой показать признак достоверности источника данных в глагольных формах некоторых индейских языков?
LVV>Есть алфавитное письмо, а есть иероглифы — у них структура разная. LVV>Но если мы возьмем алфавитное письмо, то в нем, на мой взгляд, глубинная структура понятий одна.
От письма тут очень малая зависимость. Это хорошо видно, например, на развитии египетского языка (от самого древнего до коптского).
LVV>Можно еще уточнить. Например, возмем кириллические и романо-германские. LVV>Кириллические между собой больше похожи, чем на романо-германские.
Сложно найти реально общее между русским и монгольским.
На самом деле все эти рассказы о структуре — действительно, имеют смысл, но вопрос в объёме этой структуры. Как только приходим к языку, где есть какие-то неизвестные ранее категории слов (например, в грузинском в глаголе кодируются лица и субъекта, и объекта; про кодирование достоверности источника я уже писал) — возникает принципиальная потребность восстанавливать (очень часто — без гарантии точности) параметры этих категорий. Даже банальный род существительного в русском: "I've got it" — я получил его (шкаф), её (вилку)? — уже такая категория. И по всем языкам мира (считаем, осталось тысяч 5) таких категорий сотни. Отразить их всех в софте — нереально и в конечном итоге бессмысленно. Поэтому переводчик принципиально ограничивается в возможностях, чтобы он мог работать.
На это накладывается нечёткость границ и смешение соседних понятий в одном слове (вера — это faith, religion, trust или belief? при этом как минимум religion и trust могут переводиться ещё другими словами) Грамматические особенности: в тюркских падежный суффикс может относиться к одному слову, а может — к однородной группе (через и/или), и определить можно только по смыслу (естественно, без гарантий надёжности).
Думаю, достижение из стартового письма — всего лишь подключение в семантическую базу категорий какого-то одного языка, после которого они сочли этот набор полным, и оценка консилиумом профессиональных переводчиков типа "адекватность перевода достигла 70%" (применённые попугаи при этом субъективны до предела).
Здравствуйте, netch80, Вы писали:
N>Здравствуйте, LaptevVV, Вы писали:
LVV>>Вот есть императивные и функциональные языки. LVV>>У них та самая глубинная структура — разная. LVV>>Но у языков одной группы (например, императивных) глубинная структура — одна.
N>Уже различие между managed и unmanaged это уже тотально разная структура.
LVV>>В естественных аналогично.
N>Какой структурой передать универсальным образом, что в одних языках blue — это голубой, синий или наводящий грусть, а в других голубой — может быть характеристикой половой ориентации?
Описать это как раз легко, если ориентироваться на "глубинную" структуру. то есть берем за единицу смысла некое атомарное надъязыковое понятие, которое дальше не дифференцируется.
Например, названия предметов реального мира можно взять за основную базу. Их атомарные свойства — это другой набор базовых понятий. Голубой цвет относится к таким свойствам например. Дальше берем языковые понятия. Голубой в русском языке можно представить как граф состоящий из базовых понятий и связей между ними (которые тоже описываются базовыми понятиями), как и другие сложные слова. Таким образом получаем описание смысла слов. Вот только как приводить две таких смысловых системы друг к другу у меня мозг сломается понять.
Здравствуйте, VladiCh, Вы писали:
VC>Здравствуйте, netch80, Вы писали:
> Вот только как приводить две таких смысловых системы друг к другу у меня мозг сломается понять.
помните детскую сказку о голубом щенке? "голубой, голубой, не хотим играть с тобой!". тут даже человеческий разум согласиться, что голубой в данном контексте это не цвет, т.к. голубых щенков не бывает, а если даже на щенка вылили ведро краски, то это не повод для изгнания его из общества.
но на этом история не кончается. на горизонте появляется голубой моряк (!), который тут же становится другом голубого щенка. голубые нашли друг друга!!!
а вы не читали историю про то как английский парень попал из 20 века в недалекое прошлое (18 — 19 век)? за вопрос "вы что тут кино снимаете?" его судили как за угрозу применения огнестрельного оружия.
язык на самом деле очень быстро меняется, поскольку отражает текущее положение дел. поэтому, очень важно знать когда был написан данный текст и кем. скажем, в американском и английском глагол to table имеет противоположные значения и активно используется, чтобы в случае чего было можно оправдаться, что вы имели ввиду одно значение, а вас собеседник -- другое.
у русского, кстати, свои мегафичи. в частности, глагол "говорить" в опеределенных контекстах выражает сомнение в достоверности информации. впрочем, как и другие глаголы. глагол "писать" в третьем лице означает "за что купил, за то и продал", то есть уход от ответственности.
americans fought a war for a freedom. another one to end slavery. so, what do some of them choose to do with their freedom? become slaves.
Мозг человека обладает универсальной базой для изучения языков, говорится в статье британских ученых,
опубликованной в научном журнале Proceedings of the National Academy of Sciences (PNAS).
Хочешь быть счастливым — будь им!
Без булдырабыз!!!
Здравствуйте, мыщъх, Вы писали:
М>Здравствуйте, VladiCh, Вы писали:
VC>>Здравствуйте, netch80, Вы писали:
>> Вот только как приводить две таких смысловых системы друг к другу у меня мозг сломается понять. М>помните детскую сказку о голубом щенке? "голубой, голубой, не хотим играть с тобой!". тут даже человеческий разум согласиться, что голубой в данном контексте это не цвет, т.к. голубых щенков не бывает, а если даже на щенка вылили ведро краски, то это не повод для изгнания его из общества.
Ты удивишься, наверное, но в сказке именно цвет. Причем в оригинале этот цвет — черный (дискриминация негров).
М>но на этом история не кончается. на горизонте появляется голубой моряк (!), который тут же становится другом голубого щенка. голубые нашли друг друга!!!
Вообще-то Бывалый Моряк, но кого такие мелочи интересуют.
А еще у Ильфа и Петрова был "голубой воришка" — это тоже ориентация?
"сексуальное" значение слова "голубой" — очень недавняя вещь.
LVV>ABBYY попыталась реализовать полный синтаксический и семантический разбор текста, решив те проблемы, на которые у компьютерных лингвистов сорок лет назад не хватило сил и вычислительных мощностей. В результате появилась Compreno — система понимания, анализа и перевода текстов на естественных языках.
LVV>Она включает в себя описание глубинной структуры языка — соотношение используемых в нем смыслов и взаимосвязи между ними.
LVV>Глубинная структура универсальна для всех языков, поскольку во всех культурах люди используют примерно одни и те же предметы и совершают одни и те же действия.
Здравствуйте, HrorH, Вы писали: HH>Интересно, с чего они взяли, что глубинная структура универсальна? HH>Это похоже на профанацию.
Вообще-то, идея универсальной грамматики — это одна из теорий Хомского. Но вам, наверное, виднее, что есть профанация, а что — истина.
Здравствуйте, student__, Вы писали:
__>Здравствуйте, HrorH, Вы писали: HH>>Интересно, с чего они взяли, что глубинная структура универсальна? HH>>Это похоже на профанацию. __>Вообще-то, идея универсальной грамматики — это одна из теорий Хомского. Но вам, наверное, виднее, что есть профанация, а что — истина.
У великих людей и ошибки великие А данная теория Хомского не состоялась, по крайней мере в её исконном виде. Сейчас какое-то продвижение к данной теме делает, например, Вежбицкая, но её подходы принципиально другие.
Здравствуйте, LaptevVV, Вы писали:
LVV>Можно еще уточнить. Например, возмем кириллические и романо-германские. LVV>Кириллические между собой больше похожи, чем на романо-германские.
Профессор, что еще за "кириллические языки"? Нет такой группы языков
Есть "кириллический алфавит," который можно использовать для письма на том или ином языке. Причем полным полно примеров, когда в силу тех или иных причин, разные алфавиты использовались для письма на одном и том же языке.
Например, узбекский язык. Вы же, профессор, из Ташкента. Узбекский язык перетерпел приблизительно следующую последовательность применения алфавитов: отсутствие алфавита -> арабский алфавит (до 1928) -> латиница (1928 — 1940/42 (не помню точно))-> кириллица (до 1992) -> латиница (с 1992 по настоящее время).
Несколько других республик бывшего СССР так же соскочили с кириллицы в 90-х.
Da, i na Russkom, v principe, tozhe mozhno pisat', ispolzuya latinicu