Здравствуйте, Fahrain, Вы писали:
F> Судя по тому, что у меня получается, это можно сделать по типам окружающих слов, но с определенными ограничениями. Например, для предолжения "Love loves me." мы можем определить, [...]
Английский язык — это одно сплошное западло Например, "Time flies like an arrow" = "Временные мухи любят стрелу"
Здравствуйте, Кирилл Осенков, Вы писали:
КО>Здравствуйте, Fahrain, Вы писали:
КО>Английский язык — это одно сплошное западло Например, "Time flies like an arrow" = "Временные мухи любят стрелу"
Ну тут можно сказать однозначно:
1) an arrow — существительное. Получаем "Time flies like + сущ."
2) глагол + глагол невозможная ситуация (подробнее смотрите выше). -> like это глагол, а flies это НЕглагол, в данном случае — существительное.
3) получаем: "Time сущ. глагол сущ."
Здравствуйте, Fahrain, Вы писали:
F> Ну тут можно сказать однозначно:
Да вот выходит, что нельзя. Я привел предложение, которое является полностью грамматически корректным в двух разных смыслах. В английском такие неоднозначности — на каждом шагу.
F> 1) an arrow — существительное. Получаем "Time flies like + сущ."
да. F> 2) глагол + глагол невозможная ситуация (подробнее смотрите выше). -> like это глагол, а flies это НЕглагол, в данном случае — существительное.
или наоборот: flies это глагол а like это еще что-нибудь
Вообще, если отбросить шутки, то правильно фраза переводится так: "Время летит как стрела" Поэтому для идеальной системы детерминированного парсера мало, правильно вы говорите: надо скормить системе много текстов, тогда она начнет понимать, что про мух — это бред
Здравствуйте, Кирилл Осенков, Вы писали:
КО>Здравствуйте, Fahrain, Вы писали:
КО>Вообще, если отбросить шутки, то правильно фраза переводится так: "Время летит как стрела" Поэтому для идеальной системы детерминированного парсера мало, правильно вы говорите: надо скормить системе много текстов, тогда она начнет понимать, что про мух — это бред
Вот тут-то и может помочь нейронная сеть. Как я себе это представляю — она будет просто "узнавать" некоторые виды конструкци (словосочетаний). Проблема — как всегда — в реализации. И обучении...
Здравствуйте, Fahrain, Вы писали:
F>Здравствуйте, Кирилл Осенков, Вы писали:
КО>>Здравствуйте, Fahrain, Вы писали:
КО>>Вообще, если отбросить шутки, то правильно фраза переводится так: "Время летит как стрела" Поэтому для идеальной системы детерминированного парсера мало, правильно вы говорите: надо скормить системе много текстов, тогда она начнет понимать, что про мух — это бред
F> Вот тут-то и может помочь нейронная сеть. Как я себе это представляю — она будет просто "узнавать" некоторые виды конструкци (словосочетаний). Проблема — как всегда — в реализации. И обучении...
Кстати! Только сейчас сообразил: эту же задачу можно решить и более простыми средствами — например, рассчитав вероятности сочетания слов (писал, кстати, выше). А еще проще — перевести и так и так — пусть юзер думает!
Здравствуйте, Fahrain, Вы писали:
F>А еще проще — перевести и так и так — пусть юзер думает!
Это лучше всего. Подчеркнуть сомнительное место, и при правом щелчке дать выбрать один из вариантов. Другое дело, по умолчанию ставить наиболее вероятный вариант, но это, как говорится, по мере возрастания атомных весов.
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Re[10]: Пишу переводчик...
От:
Аноним
Дата:
12.11.04 22:10
Оценка:
> ИМХО, для успешного перевода текста его нужно понять, т.е. пропарсить в некую внутреннюю структуру. Уже эту структуру можно будет сериализовать в любой поддерживаемый язык. Программы, переводящие пословно, никогда не станут умными, сколько их ни учи.
Может это поможет ...
"В июне 1960 года в журнале Scientific American появилась статья Джеймса Кука Брауна (James
Cooke Brown) под названием "Логлан". В ней подробно описывался новый логический язык — логлан (loglan = logical language), который был создан специально для того, чтобы проверить гипотезу Сепира-Уорфа. В этом языке отсутствовали все двусмысленности и противоречия, характерные для обычных языков."
"До сих пор некоторые программы автоматического перевода используют логлан как промежуточный внутренний язык, — то есть переводя, например, с английского, они сначала переводят для себя текст на логлан, а потом уже с логлана — на любой другой язык — немецкий, французский или китайский."
Кстати! На днях подсчитал: в "Active Voice" всего-навсего 80 видов предложений.
Число получено след. образом: 16 временных форм * 5 (количество видов предложений)
Здравствуйте, Fahrain, Вы писали:
F> Кстати! На днях подсчитал: в "Active Voice" всего-навсего 80 видов предложений. F> Число получено след. образом: 16 временных форм * 5 (количество видов предложений)
F> Ф ведь есть еще и пассив...
The gate squeaked, but rusty hinge has long since ceased to bother him.
Переведет?
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
The gate squeaked, but rusty hinge has long since ceased to bother him.
S>Переведет?
Ну, если не считать того, что в базе части слов нет (это легко исправить ), то единственная проблема возникнет вот тут: "has long since ceased", т.к. я еще не прописывал обработку наречий между вспомогательным глаголом и сказуемым (хотя модет и пройти, т.к. по идее там образуется сегмент вида наречие+глагол, который будет восприниматься как глагол). Попробовать не могу, т.к. под руками программы нету
Можно сказать, что основной алгоритм переводчика готов. Осталось написать работу с базу данных. Однако, встретился с проблемой выбора правильной части речи, которая используется для слова в текущем предложении. Если вспомнить такое предложение "Time flyes like an arrow", то я думаю будет понятно в чем проблема.
Собственно, после долгих размышлений пришел к следующему алгоритму предварительного анализа предложения:
1) Определяем все части речи (типы слов) которые могут принимать слова в предложении.
2) создаем n-ое количество предложений, в которых каждое слово имеет один тип (т.е. избавляемся от многовариантности перевода (т.е. многовариантность остается но в рамках одной части речи)).
3) Проверяем все полученные предложения на грамматику и отбрасываем те, которые содержат невозможные грамматические конструкции или не подходят ни под одну из грамматических временных форм предложений в английском.
4) Анализируем результат для каждого предложения из полученных:
а) Получаем список связей между словами в предложении (генерится в п.3).
б) Для каждой связи определяем валидность словосочетания (т.е. теоретическую возможность образования такого словосочетания в русском).
в) Каждой связи на основании предыдущего пункта назначаем некий числовой индекс, показывающий вероятность образования такого словосочетания. Если хотя-бы для одной связи индекс равен нулю (т.е. словосочетание образоваться не может), это предложение отбрасывается.
г) Результирующим вариантом перевода будет то предложение, укоторого сумма индексов будет выше. (???)
Примечание:
Индексы определяются следующим образом: При разработке генерируется некая база данных содержащая возможные словосочетания (Примерный алгоритм: анализируем русский текст, получаем словосочетания, определяем частоту встречаемости, рассчитываем индекс (как?)). Также, в базе заданы словосочетания, которые невозможна по какким-либо причинам.
Вопрос такой: насколько этот алгоритм будет жизнеспособен, т.е. стоит ли его писать или идея неверна в корне?
Behind them, unseen, a tiny scrap of paper floated down and landed near the remains of John Renshaw's shirt. Spiky backhand script read:
Hey, kids! Special in this Vietnam Footlocker!
(For a Limited Time Only)
1 Rocket Launcher
20 Surface-to-Air "Twister" Missiles
1 Scale-Model Thermonuclear Weapon
ПОСЛЕ ПЕРЕВОДА
Behind them , unseen , tiny scrap paper floated down и landed near remains John Renshaw's рубашка .
Hey , kids ! Special в этот Vietnam Footlocker !
(for Limited Время Only)
1 Rocket Launcher
20 Surface-to-air " Twister " Missiles
1 Scale-model Thermonuclear Weapon
КАК ХОТЕЛОСЬ БЫ
Они не видели, как у них за спиной, рядом с обрывками рубашки Джона Реншо, приземлился листочек бумаги, на котором угловатым с обратным наклоном почерком было написано:
ЭЙ, ДЕТИШКИ! ТОЛЬКО В ЭТОМ ВЬЕТНАМСКОМ СУНДУЧКЕ!
(Выпуск скоро прекращается)
1 ракетная установка
20 ракет "Твистер" класса "земля-воздух"
1 термоядерный заряд, уменьшенный до масштаба набора.
пока не густо будем ждать новых версий
... <<silent Rsdn@Home 1.1.4 beta 1 Windows XP 5.1.2600.0 >>
Re[5]: Пишу переводчик...
От:
Аноним
Дата:
16.12.04 19:20
Оценка:
> Программа пишется чтобы продаваться. На данный момент на рынке НЕТ программ-переводчиков сравнимых с ПРОМТ (вообще есть — только их не видно и не слышно ). Т.е. теоретически, если довести программу до ума, ее можно продавать.
ПРОМТ сам по себе препоганенький переводчик, только благодаря возможности настройки и "самообучения" можно превратить его действительно достойный переводчик. Знаю людей у которых хватило терпения и времени.
Только переводчик писал далеко не один человек...
Электронные переводчики художественных текстов, как вы писали ранее, это глупость. Поскольку не знающему английский он вряд ли поможет оценить хуждожественную ценность текста.
Здравствуйте, DEMON HOOD, Вы писали:
DH>для тех кто не понял как его использовать....
DH>Trans.exe — очевидно не рабочий, так как кроме about там ничего не работает
Рабочий Просто это графическая версия trans_console. Умеет открывать текстовые файлы (файлы не должны содержать кавычки и скобки, т.к. возможны проблемы). Перевод — клавишей F9. Кстати, только эта программа может редактировать список собственных местоимений и склонять их (т.е. там можно ввести какое-нибудь имя собственное и просклонять его так как надо.)
DH>WidsEdit.exe BaseEditor.exe IdmEdit.exe Sklon_Words.exe — какието утилиты для корректировки словарей
Именно так Кстати, если вдруг какое-то слово склоняется неправильно, то Sklon_Words.exe предназначен именно для этого.
DH>trans_console.exe — действительно переводит! использовать так -> DH>
А еще мложно просто запустить trans_console без параметров и ввести нужную строку текста...
DH>пока не густо будем ждать новых версий
Работаем
А насчет перевода — вы посмотрели, есть ли слова из вашего текста в словаре? Насколько я знаю их там нкогда небыло Так что ищите другой текст, или можно модифицировать словарь...
Здравствуйте, gaidar, Вы писали:
>> Программа пишется чтобы продаваться. На данный момент на рынке НЕТ программ-переводчиков сравнимых с ПРОМТ (вообще есть — только их не видно и не слышно ). Т.е. теоретически, если довести программу до ума, ее можно продавать.
G>ПРОМТ сам по себе препоганенький переводчик, только благодаря возможности настройки и "самообучения" можно превратить его действительно достойный переводчик. Знаю людей у которых хватило терпения и времени. G>Только переводчик писал далеко не один человек...
Все зависит от алгоритма. Например, я так и не смог понять зачем промт меняет местами прилагательные и существительные, т.е. очень часто вместо фразы "ручной тормоз" получается "тормозная рука" (пример взят с потолка, так что не придирайтесь , но смысл именно такой)
G>Электронные переводчики художественных текстов, как вы писали ранее, это глупость. Поскольку не знающему английский он вряд ли поможет оценить хуждожественную ценность текста.
Ну, тут вопрос вкуса... Во-первых, если человек не знает хотябы основ языка, то электронный переводчик ему не поможет, особенно в художественных текстах, т.к. есть некоторые выражения (фразы, ссыдки на произведения и т.п.), которые не знающему язык ничего не скажут, он даже не поймет что имелось в виду. (тот же промт упорно переводит вопрос "How do you do?" как "Как ты делаешь?")
Во-вторых, планируется использовать базу словосочетаний, по которой будет выбираться наиболее вероятный перевод, более подробно смотрите Оцените идею...
Здравствуйте, Fahrain, Вы писали:
F>Здравствуйте, gaidar, Вы писали:
>>> Программа пишется чтобы продаваться. На данный момент на рынке НЕТ программ-переводчиков сравнимых с ПРОМТ (вообще есть — только их не видно и не слышно ). Т.е. теоретически, если довести программу до ума, ее можно продавать.
G>>ПРОМТ сам по себе препоганенький переводчик, только благодаря возможности настройки и "самообучения" можно превратить его действительно достойный переводчик. Знаю людей у которых хватило терпения и времени. G>>Только переводчик писал далеко не один человек...
F> Все зависит от алгоритма. Например, я так и не смог понять зачем промт меняет местами прилагательные и существительные, т.е. очень часто вместо фразы "ручной тормоз" получается "тормозная рука" (пример взят с потолка, так что не придирайтесь , но смысл именно такой)
G>>Электронные переводчики художественных текстов, как вы писали ранее, это глупость. Поскольку не знающему английский он вряд ли поможет оценить хуждожественную ценность текста.
F> Ну, тут вопрос вкуса... Во-первых, если человек не знает хотябы основ языка, то электронный переводчик ему не поможет, особенно в художественных текстах, т.к. есть некоторые выражения (фразы, ссыдки на произведения и т.п.), которые не знающему язык ничего не скажут, он даже не поймет что имелось в виду. (тот же промт упорно переводит вопрос "How do you do?" как "Как ты делаешь?") F> Во-вторых, планируется использовать базу словосочетаний, по которой будет выбираться наиболее вероятный перевод, более подробно смотрите Оцените идею...
F> Идея пока находится в стадии анализа, но теоретически должно работать...
Если готов попробовать вам помочь по части БД
какой базой вы хотите пользоваться
есть ли у Вас какие-то мысли как это должно все выглядеть
какой объем будет иметь БД (количество записей в релизе)
и все что можете прислать
admin@itsoft.by
Изменения:
— при переводе выдаются как варианты перевода слова (одной части речи), так и варианты перевода предложений (если часть речи слова достоверно определить не удалось).
— Опознание имен собственных в тексте.
— Возможность ввода склонения имен собственных
— Склонение фраз.
Исправлены различные ошибки.
Расширен набор синтаксических конструкций языка.
Точность перевода простых предложений более 80% (если известны все слова).
Для сложных предложений пока не заданы скрипты анализа и обработки, поэтому могут быть ошибки.