Re[2]: Пишу переводчик...
От: Аноним  
Дата: 25.10.04 09:35
Оценка:
Возьмите меня на GUI.


данное сообщение получено с www.gotdotnet.ru
ссылка на оригинальное сообщение
Re[3]: Пишу переводчик...
От: Fahrain Россия ertranslator.narod.ru
Дата: 25.10.04 10:03
Оценка:
Здравствуйте, jinek, Вы писали:

J>Возьмите меня на GUI.


А что можете?
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Re[4]: Пишу переводчик...
От: Fahrain Россия ertranslator.narod.ru
Дата: 25.10.04 10:18
Оценка:
Здравствуйте, Fahrain, Вы писали:

F>Здравствуйте, jinek, Вы писали:


J>>Возьмите меня на GUI.


Чуть не забыл: насчет GUI — там возни много будет... Нужен редактор-переводчик, нужен редактор БД, нужен редактор склонений слов и т.п. В принципе они уже есть (я писал), но до идеала так далеко...
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Re[6]: Пишу переводчик...
От: DEMON HOOD  
Дата: 03.11.04 19:29
Оценка:
Здравствуйте, Fahrain, Вы писали:

F> На данный момент на рынке НЕТ программ-переводчиков сравнимых с ПРОМТ

На самом деле их целаая куча, но все они переводят не лучше чем

The coffee that our secretary , Mary , had gotten for mister Harlan sat on the edge of my desk .
...
Кофе который+что наш секретарь , mary , получил для+на мистера harlan сидел на крае моего стола .

... <<Rammstein — Klavier Rsdn@Home 1.1.4 beta 1 Windows XP 5.1.2600.0 >>
Re[7]: Пишу переводчик...
От: Fahrain Россия ertranslator.narod.ru
Дата: 04.11.04 15:56
Оценка:
Здравствуйте, DEMON HOOD, Вы писали:

DH>Здравствуйте, Fahrain, Вы писали:


F>> На данный момент на рынке НЕТ программ-переводчиков сравнимых с ПРОМТ

DH>На самом деле их целаая куча, но все они переводят не лучше чем
DH>

DH>The coffee that our secretary , Mary , had gotten for mister Harlan sat on the edge of my desk .
DH>...
DH>Кофе который+что наш секретарь , mary , получил для+на мистера harlan сидел на крае моего стола .


Ага, особенно если учесть, что предложение изначально написано не верно

На самом деле, если тебе не нравится такой перевод (кстати, абсолютно правильный, т.к. в предложении (оригинале) явно проблемы с орфографией), то его всегда можно поправить. В частности будет (пока только в виде задумки — ищется алгоритм) модуль, корректирующий конечный результат. Вот там и можно будет задать правильный перевод для такого предложения.

А вообще, сейчас переводчик переводит тот-же текст так:

Кофе который+что наш секретарь , Мари , получила для+на мистера Харлана сидел на крае моего стола .
Его кружка была того+той+одного с эмблемой Аниматорс корпорации на нем+этом .
Он взял маленький глоток кофе , когда Мари сначала вручила его+это ему .
Он взял черный кофе , но он прихлебывал оно+это как он не ощутил вкус оно+это , или оно+это не действительно значило что+какой оно+это на вкус .
Он взял оно+это из вежливости , не из желания .
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Re[8]: Пишу переводчик...
От: ie Россия http://ziez.blogspot.com/
Дата: 05.11.04 13:44
Оценка: 6 (1)
Здравствуйте, Fahrain, Вы писали:

F>>> На данный момент на рынке НЕТ программ-переводчиков сравнимых с ПРОМТ


Возможно оффтоп, если что сорри.
Давным-давно, Новосибирский филиал Novosoft Inc. (я тогда проходил там студенческую стажировку) купил у каких-то москвичей-лингвистов коды ПО называемого "Этап-3". Эта была очередная программа-переводчик. Переводила она, кстати, лучше ПРОМТа, да и то не все. Небольшая ее предыстория. Некоторая лингвистическая группа занималась ее разработкой к тому времени уже несколько лет, но насколько я понял у них была критическая нехватка программистов, а может небыло нехватки, проект вроде был коммерческий, а может и нет, в общем не могу точно сказать как они дошли до продажи проекта, но дошли. Новософт для реализации этого проекта взял лингвистов, психологов и др. многих умных дядей (и тетей). Проект планировался большой на несколько человеко лет. В общем проект со временем умер.
К чему я это все, да к тому, что ИМХО рано Вы за БД взялись, да за реализацию ГУИв, судя по текущему переводу лингвистической модели в основе движка-переводчика никакой нет.

P.S. Все что я написал про "Этап-3" и про Новософт, это лишь взгляд со стороны, возможно все было не так, если кто знает, поправит меня.
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Превратим окружающую нас среду в воскресенье.
Re[9]: Пишу переводчик...
От: Fahrain Россия ertranslator.narod.ru
Дата: 06.11.04 12:51
Оценка:
Здравствуйте, ie, Вы писали:

ie>Здравствуйте, Fahrain, Вы писали:


ie>К чему я это все, да к тому, что ИМХО рано Вы за БД взялись, да за реализацию ГУИв, судя по текущему переводу лингвистической модели в основе движка-переводчика никакой нет.


Ну насчет лингвистической модели — это вы загнули. Модель есть, просто она еще дорабатывается Вообще, переводчик на данном этапе своего развития сильно напоминает движок к к-л игрушке, т.е качество перевода прямо зависит от того, какие данные введены в его БД. Как я уже говорил выше — не нравится "точный" перевод к-л предложения — его можно прописать в БД и это предложение будет переводиться по другому. Все в ваших руках

P.S.: Вы не забывайте — проект пока еще не вышел со стадии альфы... Многие вещи еще в стадии идеи. В идеале, по окончании перевода, русский текст будет обрабатываться отдельным модулем, там будут исправляться несовместимые варианты перевода в словосочетаниях и т.п. Все впереди...
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Re[10]: Пишу переводчик...
От: Кирилл Осенков Украина
Дата: 06.11.04 13:25
Оценка:
Здравствуйте, Fahrain, Вы писали:

F>Ну насчет лингвистической модели — это вы загнули. Модель есть, просто она еще дорабатывается

ИМХО, для успешного перевода текста его нужно понять, т.е. пропарсить в некую внутреннюю структуру. Уже эту структуру можно будет сериализовать в любой поддерживаемый язык. Программы, переводящие пословно, никогда не станут умными, сколько их ни учи.

Поэтому я бы начал с парсера естественных языков и продумывания внутренних структур данных для хранения грамматических конструкций. По этому поводу уже много чего сделано, в сети валяется достаточно материалов по этому поводу. Синтаксический разбор, база данных языковых конструкций — если у вас это будет, то для добавления нового языка достаточно будет указать соответствие между абстрактными грамматическими конструкциями и конкретными реализациями в добавляемом языке. Совет: вам бы найти программиста, на 5 знающего немецкую грамматику — немецкий очень богатый и в тоже время четкий язык, там нет такого безобразия с порядком слов, как в русском, и такой бедной "слабосвязанной" грамматики, как в английском. Если научиться парсить и генерировать обратно немецкий язык — можете считать, что дело в шляпе.

Все имхо.
Re: Пишу переводчик...
От: Dima.NET Россия  
Дата: 07.11.04 02:27
Оценка:
Здравствуйте, Fahrain, Вы писали:

F> В общем-то переводчик уже подбирается к бете. Но на данный момент есть проблемы сбазами даный (нужна нормальная реализация доступа к БД).


Если вам еще нужен программист БД пишите -> dmitrybal@mail.ru
ГУЙ тоже можно обсудить.
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Re[11]: Пишу переводчик...
От: Fahrain Россия ertranslator.narod.ru
Дата: 09.11.04 07:54
Оценка:
Здравствуйте, Кирилл Осенков, Вы писали:

КО>Здравствуйте, Fahrain, Вы писали:


КО>Поэтому я бы начал с парсера естественных языков и продумывания внутренних структур данных для хранения грамматических конструкций. По этому поводу уже много чего сделано, в сети валяется достаточно материалов по этому поводу. Синтаксический разбор, база данных языковых конструкций — если у вас это будет, то для добавления нового языка достаточно будет указать соответствие между абстрактными грамматическими конструкциями и конкретными реализациями в добавляемом языке. Совет: вам бы найти программиста, на 5 знающего немецкую грамматику — немецкий очень богатый и в тоже время четкий язык, там нет такого безобразия с порядком слов, как в русском, и такой бедной "слабосвязанной" грамматики, как в английском. Если научиться парсить и генерировать обратно немецкий язык — можете считать, что дело в шляпе.


Ну тут все зависит о точки зрения... Я не спорю — в теории это звучит хорошо, а на практике мы получаем перевод а-ля ПРОМТ, когда читать полученный текст практически невозможно. Из наиболее распространненных ошибок ПРОМТа: в словосочетаниях прилагательное+существительное после перевода сущуствительное становится прилагательным, а прилагательное — существительным; совершенно невозможно заставить переводить группу слов не как фразу, а по-отдельности; при добавлении новых слов в базу — если эти слова склоняются по другим правилам (исключения) — невозможно задать правильное склонение (это как раз баг лингвистической модели).

Так что — получается "наш ответ ПРОМТу"
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Re[12]: Пишу переводчик...
От: Кирилл Осенков Украина
Дата: 09.11.04 12:28
Оценка:
Здравствуйте, Fahrain, Вы писали:

F>Ну тут все зависит о точки зрения... Я не спорю — в теории это звучит хорошо, а на практике мы получаем перевод а-ля ПРОМТ, когда читать полученный текст практически невозможно.

А ПРОМТ работает на основе синтаксического разбора?

P.S. Вы кстати не интересовались, кто как переводит?
Re[13]: Пишу переводчик...
От: Fahrain Россия ertranslator.narod.ru
Дата: 10.11.04 17:48
Оценка:
Здравствуйте, Кирилл Осенков, Вы писали:

КО>Здравствуйте, Fahrain, Вы писали:


F>>Ну тут все зависит о точки зрения... Я не спорю — в теории это звучит хорошо, а на практике мы получаем перевод а-ля ПРОМТ, когда читать полученный текст практически невозможно.

КО>А ПРОМТ работает на основе синтаксического разбора?

КО>P.S. Вы кстати не интересовались, кто как переводит?


Нет, не интересовался. Кстати — а что вы имеете в виду под "кто"? Насколько я знаю из переводчиков с англ. на русский сейчас есть только ПРОМТ и его клоны... Из того же, что можно найти — все программы написаны до 96 года. Я бы сказал, что сейчас они устарели. Из иностранных же, довольно часто упоминается TRADOS, но, во-первых, стоит как паровоз, а во-вторых — он все-таки для проф. переводчиков...
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Re[13]: Пишу переводчик...
От: Аноним  
Дата: 10.11.04 18:08
Оценка:
to Fahrain:

Если тебе нужен хороший GUI, тогда пиши на eisernWolf@tut.by. Высылай скриншоты, описание и мы что-нибудь да придумаем. Есть несколько способов оптимизации. Первый: просто навести марафет. Второй: заюзать контролы в стиле XP, операции drag&drop и т.п. И третий: полностью переработать интерфейс с использованием оптимизированных контролов типа скролл-бара, у которого две кнопочки для прокрутики находятся рядом, т.е. если пользователь ошибся, то чтобы пролистать документ чуть выше нужно передвинуть мышь всего лишь на пару миллиметров. Ну и в том же духе.


А насчет перевода: не пробовал поработать в направлении нейронной сети?
eisernWolf


данное сообщение получено с www.gotdotnet.ru
ссылка на оригинальное сообщение
Re[14]: Пишу переводчик...
От: Fahrain Россия ertranslator.narod.ru
Дата: 10.11.04 18:33
Оценка:
Здравствуйте, eisernWolf, Вы писали:

W>to Fahrain:


W>Если тебе нужен хороший GUI, тогда пиши на eisernWolf@tut.by. Высылай скриншоты,


W>А насчет перевода: не пробовал поработать в направлении нейронной сети?


Тут вроде один уже откликнулся. Так что если не получится — то к вам
А насчет нейронных сетей — тут разбираться надо (причем не смоими знаниями математики), да и комп нужен довольно-таки мощный... Вообще я когда начинал писать тоже хотел прирутить работу с сетями, но: возни много, алгоритмы придется разрабатывать чутьли не с нуля и т.д. А сейчас — пустил поиск по базе, не нашел — изменил слово по правилу и пускаешь поиск по базе...
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Re[14]: Пишу переводчик...
От: Аноним  
Дата: 11.11.04 04:34
Оценка:
>>возни много, алгоритмы придется разрабатывать чутьли не с нуля и т.д.

На самом деле, ты уже больше возишься с тем, чтобы сделать из корявого перевода что-то более менее читаемое. А один раз написав и обучив себе нейронную сеть, она бы уже работала на тебя, принося результаты. Самый субъективно короткий путь не всегда оказывается действительно самым коротким.
Мне даже интересно, что выйдет. Может как появится много свободного времени, займусь (дык вот только вопрос, когда оно появится .
eisernWolf


данное сообщение получено с www.gotdotnet.ru
ссылка на оригинальное сообщение
Re[15]: Пишу переводчик...
От: Fahrain Россия ertranslator.narod.ru
Дата: 11.11.04 15:17
Оценка:
Здравствуйте, eisernWolf, Вы писали:

>>>возни много, алгоритмы придется разрабатывать чутьли не с нуля и т.д.


W>На самом деле, ты уже больше возишься с тем, чтобы сделать из корявого перевода что-то более менее читаемое. А один раз написав и обучив себе нейронную сеть, она бы уже работала на тебя, принося результаты. Самый субъективно короткий путь не всегда оказывается действительно самым коротким.


Ага, только на обучение сети уйдет столько-же времени, сколько и на формальное описание английского языка. И я сомневаюсь, что потом эту самую сеть будет легко доучить на новые конструкции. По-крайней мепре это уже явно задача для "продвинутого" пользователя. Кстати — самым сложным на данный момент оказалось не определить грамматику, а определить части речи слов в предложении (особенно когда среди вариантов перевода есть и существительные и глаголы).
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Re[16]: Пишу переводчик...
От: Fahrain Россия ertranslator.narod.ru
Дата: 11.11.04 15:21
Оценка:
Здравствуйте, Fahrain, Вы писали:

Да, чуть не забыл. Я тоже сначала думал, что переводжчик — это просто. На самом деле то, что вы видите — это уже ДЕВЯТАЯ версия алгоритма. На данный момент она самая стабильная.

P.S.: А пишу переводяик я уже 1,5 года.

P.P.S.: Если получится с нейронной сетью — это хорошо. Так что пишите. Можем даже объединить алгоритмы
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Re[17]: Пишу переводчик...
От: Dr.Gigabit  
Дата: 11.11.04 18:49
Оценка:
Здравствуйте, Fahrain, Вы писали:

F> P.P.S.: Если получится с нейронной сетью — это хорошо. Так что пишите. Можем даже объединить алгоритмы


Сорри за возможный оффтоп, вставлю свои 5 копеек. Сталкивался я с подобной задачей, тоже иногда было посматривал в сторону нейронных сетей(не представляя, откровенно говоря, на тот момент практически ничего о данной области). Так вот состоялся у меня разговор с человеком, который этим занимается на достаточно серьезном уровне. Так вот его резюме было таково — сейчас нейронные сети на слуху во многом благодаря тому, что они достаточно популярны и "модны" в научных кругах. Действительно, они решают многие проблемы, но для этого нужен как минимум кластер на пару процессоров как минимум
... << RSDN@Home 1.1.4 @@subversion >>
Re[17]: Пишу переводчик...
От: Аноним  
Дата: 12.11.04 04:03
Оценка:
Dr.Gigabit >>для этого нужен как минимум кластер на пару процессоров как минимум

Как насчет распознания mouse gestures с помощью нейронной сети? Если инетересно, поищи на codeproject. Работает на любой машине, на которой установлена .net framework.
Мы же собираемся решать глобальные задачи.

Fahrain >>Я тоже сначала думал, что переводжчик — это просто.

Ну а я так по крупному счету и не думаю.

>> И я сомневаюсь, что потом эту самую сеть будет легко доучить на новые конструкции.


На самом деле с точностью до наоборот.

>> По-крайней мепре это уже явно задача для "продвинутого" пользователя.


Ну так а ты что, деньги собрался заработать или в песочнице поиграть?

>> Кстати — самым сложным на данный момент оказалось не определить грамматику, а определить части речи слов в предложении (особенно когда среди вариантов перевода есть и существительные и глаголы).


А проблема в том, что линейный алгоритм имеет жесткую логику (как бы ты ее не крутил), а человеческий язык порою ей не подчиняется. Поэтому для этой задачи нейронка подходит куда как лучше.

Если расчитываешь на коммерческий рынок, то тебе нужна долгоиграющая программа, а не однодневка, которая умрет, как только ее скачают пару пользователей и убедятся в неудовлетворительном качестве перевода.
А чтобы пользователи скачивали и им нравилось до такой степени, что они готовы были заплатить тебе денешку, нужна своя изюминка, и соответствующий уровень перевода.
eisernWolf


данное сообщение получено с www.gotdotnet.ru
ссылка на оригинальное сообщение
Re[18]: Пишу переводчик...
От: Fahrain Россия ertranslator.narod.ru
Дата: 12.11.04 14:57
Оценка:
Здравствуйте, eisernWolf, Вы писали:

>>> И я сомневаюсь, что потом эту самую сеть будет легко доучить на новые конструкции.


W>На самом деле с точностью до наоборот.

Ага, только для того, чтобы ее доучить нуден как минимум человек разбирающийся в НС. Или тут есть какие-то варианты? А с линейным алгоритмом просто — прописал новую схему, устранил конфликты с остальными и — все работает.

>>> По-крайней мепре это уже явно задача для "продвинутого" пользователя.


W>Ну так а ты что, деньги собрался заработать или в песочнице поиграть?


Т.е. вы мне предлагаете разработать программу, котлрая будет стоить несколько тыс. вечнозеленых. Продать две-три копии и забыть про нее?

>>> Кстати — самым сложным на данный момент оказалось не определить грамматику, а определить части речи слов в предложении (особенно когда среди вариантов перевода есть и существительные и глаголы).


W>А проблема в том, что линейный алгоритм имеет жесткую логику (как бы ты ее не крутил), а человеческий язык порою ей не подчиняется. Поэтому для этой задачи нейронка подходит куда как лучше.


Верю. На самом деле, если использовать нейронную сеть на этапе анализа, то это возможно будет выгоднее линейного алгоритма. Если возьметесь — это было бы здорово. Тут все упирается в то, что для правильного определения грамматики необходимо знать часть речи слов в предложении. Фактически надо точно знать к какой группе частей речи принадлежит текущее слово, т.е.:
а) прилагательное/существительное/местоимение
или
б) наречие/глагол
Судя по тому, что у меня получается, это можно сделать по типам окружающих слов, но с определенными ограничениями. Например, для предолжения "Love loves me." мы можем определить, что первое слово — это существительное, т.к. в английском языке, если подряд идут два глагола, то один из них либо вспомогательный глагол, либо это фраза. Хотя, это тоже верно процентов на 60.
Именно для решения этой задачи нейронная сеть была бы очень полезна.

И второй момент. В программе будет модуль (если вы посмотрите выше, то я про это уже писал), который будет чистить за переводчиком текст. Алгоритм пока находится в стадии проектирования, но основная идея такова: мы знаем сочетаемость/несочетаемость слов друг с другом (достаточно взять и попасить пару книг и мы получим вероятности встречи нескольких слов в словосочетании на русском языке). После перевода, будут отбрасываться те варианты перевода, которые дают несочетаемость.
... << RSDN@Home 1.1.4 beta 3 rev. 185>>
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.