Объясните, пожалуйста, как запрограммировать фразу из учебника:
«Определить падеж существительного в предложении можно по вопросу»
Я даже не знаю, как отделить в тексте существительные от всего остального.
«Существует пять основных групп существительных в китайском языке. Они классифицируются по типу передаваемого объекта.
Пять групп существительных китайского языка:
— Характеризующие одушевленный предмет
— Характеризующие неодушевленный предмет
— Характеризующие время
— Характеризующие местонахождение
— Существительные-директивы (в русском языке это предлоги «внизу», «вверху», «за», «перед», «внутри» и т.п.)»
Я так понимаю, что здесь нужны нейросети и петафлопсный компьютер.
Ну ок, доступ можно купить на пару часов. Что делать дальше,
как подготовиться? Какая архитектура должна быть у программы?
Здравствуйте, Эйнсток Файр, Вы писали:
ЭФ>Объясните, пожалуйста, как запрограммировать фразу из учебника: ЭФ>«Определить падеж существительного в предложении можно по вопросу»
Никак. Это не учебник программирования.
Здравствуйте, Эйнсток Файр, Вы писали:
ЭФ>Детей же ЭТИМ обучают?
Нет. Дети обучаются во время естественного общения, с первого момента когда начитают понимать не отдельные слова, а фразы, а затем и говорить их. Учебник лишь учит называть их уже существующие знания. Дает метаинформацию.
ЭФ>Значит соответствующим образом спроектированная нейросеть тоже должна смочь.
Как только научишь её повторять человеческое мышление — создашь сильный ИИ
Здравствуйте, Эйнсток Файр, Вы писали:
ЭФ>Объясните, пожалуйста, как запрограммировать фразу из учебника: ЭФ>«Определить падеж существительного в предложении можно по вопросу» ЭФ>Я даже не знаю, как отделить в тексте существительные от всего остального.
Почитай "Слово о словах" по словам "Глокая куздра".
А вообще всегда есть словарь, какая-то база уже известных существительных, база типовых правил склонения и применяется вероятностный матчинг возможным шаблонам.
ЭФ>«Существует пять основных групп существительных в китайском языке. Они классифицируются по типу передаваемого объекта. ЭФ> Пять групп существительных китайского языка: ЭФ> — Характеризующие одушевленный предмет ЭФ> — Характеризующие неодушевленный предмет ЭФ> — Характеризующие время ЭФ> — Характеризующие местонахождение ЭФ> — Существительные-директивы (в русском языке это предлоги «внизу», «вверху», «за», «перед», «внутри» и т.п.)»
И что с этого?
ЭФ>Я так понимаю, что здесь нужны нейросети и петафлопсный компьютер. ЭФ>Ну ок, доступ можно купить на пару часов. Что делать дальше, ЭФ>как подготовиться? Какая архитектура должна быть у программы?
Петафлопсный комп не нужен. Но такие программы или пишут десятилетиями, в основном отрабатывая семантическую базу, или используют ничего не понимающие нейросети типа GPT. GPT-2 ты можешь прямо сейчас сказать и запустить на своём домашнем компе.
Здравствуйте, Эйнсток Файр, Вы писали:
ЭФ>Объясните, пожалуйста, как запрограммировать фразу из учебника: ЭФ>«Определить падеж существительного в предложении можно по вопросу»
Чего надо? Определять падеж существительного в тексте?
На каком языке? На русском?
Для начала общую схему решения. Какова задумка, и почему она вообще будет работать.
Общая информация о том, что падеж — это категория, что было прокатегоризировано, зачем это проделывалось вообще, как именно.
Как выделяют категории для произвольного языка. Как выделяют позиции внутри категории.
Ну а затем реализация этого на примере русского языка.
Здравствуйте, Эйнсток Файр, Вы писали:
A>> Чего надо?
ЭФ>Для начала общую схему решения. Какова задумка, и почему она вообще будет работать. ЭФ>Общая информация о том, что падеж — это категория, что было прокатегоризировано, зачем это проделывалось вообще, как именно. ЭФ>Как выделяют категории для произвольного языка. Как выделяют позиции внутри категории. ЭФ>Ну а затем реализация этого на примере русского языка.
Ну... В большинстве языков падежей вообще нет.
Например, падежей нет в английском и китайском языках.
Падежи были, но исчезли в испанском и итальянском.
В русском и немецком падежи есть, но реализованы совершенно по-разному...
Общих схем для разных языков вообще как-то не наблюдается.
Это касается вообще всех аспектов, не только падежей.
В некоторых языках вообще нет концепции слова...
P>> Никак. Это не учебник программирования. ЭФ>Детей же ЭТИМ обучают? Значит соответствующим образом спроектированная нейросеть тоже должна смочь.
Да что вы нейросети всюду пихаете??
Скоро калькулятор будет на основе нейросетки работать, я чувствую.
Если всерьез стоит такая задача — чем не устроит словарь существительных русского (или другого интересующего) языка?
Можно даже со всеми падежными формами.
Здравствуйте, Эйнсток Файр, Вы писали:
ЭФ>Объясните, пожалуйста, как запрограммировать фразу из учебника: ЭФ>«Определить падеж существительного в предложении можно по вопросу»
Это похоже на учебник для русскоязычных детей, которые уже владеют языком и могут составить вопрос ("нет кого?", "дать кому?"...) и выбрать вариант, что звучит подходяще.
Нужно брать учебник для тех, у кого русский не родной. Для тех, у кого в языке нет таких падежей. Вот там объяснения уже должны быть более хорошими, не опирающимися на языковой опыт ученика.
TMU> чем не устроит словарь существительных русского (или другого интересующего) языка? TMU> Можно даже со всеми падежными формами.
Тем, что:
— во-первых, составления такого словаря потребует неподъёмных трудозатрат;
— во-вторых, язык постоянно меняется, причём меняет его каждый живущий человек (в каждой субкультуре свой сленг), пять-десять лет и всё — софт на свалку;
— в-третьих изобретение слова возможно прямо в контексте текущего диалога, и человек поймёт изобретённое слово (а словарь — нет).
TMU>> чем не устроит словарь существительных русского (или другого интересующего) языка? TMU>> Можно даже со всеми падежными формами. ЭФ>Тем, что: ЭФ>- во-первых, составления такого словаря потребует неподъёмных трудозатрат;
То есть ты полагаешь, что электронных словарей разных видов на данный момент не существует, их надо делать с нуля, правда?
А как тот же Word проверяет орфографию, по-твоему?
А обучающий набор для твой супермегасетки откуда возьмется?
ЭФ>- во-вторых, язык постоянно меняется, причём меняет его каждый живущий человек (в каждой субкультуре свой сленг), пять-десять лет и всё — софт на свалку;
Ух ты. За 10 лет язык меняется до неузнаваемости, ну надо же.
ЭФ>- в-третьих изобретение слова возможно прямо в контексте текущего диалога, и человек поймёт изобретённое слово (а словарь — нет).
Попробуй все же сформулировать задачу. Чего ты хочешь? Определять падежи существительных — это не задача, это способ. Чего ты хочешь добиться с помощью этих падежей?
TMU>То есть ты полагаешь, что электронных словарей разных видов на данный момент не существует, их надо делать с нуля, правда?
Я знаю, что в РАН ведётся такая работа (Апресян), на текущий момент выпустили три тома, там слова только на несколько начальных букв.
Активный словарь русского языка. Т. 1—3 / Отв. ред. акад. Ю. Д. Апресян. — М.: Языки славянской культуры, 2014.
TMU>А как тот же Word проверяет орфографию, по-твоему?
Застарелые проприертарщики. Они не подарят их технологии человечеству в лице меня. А я нищеброд-голодранец и не могу выкупить исходники с патентами у них.
TMU> А обучающий набор для твой супермегасетки откуда возьмется?
Из википедии, библиотек Genesis, eLibrary, киберленинка.
ЭФ>>- во-вторых, язык постоянно меняется, причём меняет его каждый живущий человек (в каждой субкультуре свой сленг), пять-десять лет и всё — софт на свалку;
TMU>Ух ты. За 10 лет язык меняется до неузнаваемости, ну надо же.
Так и есть. Встречался с женщиной из другого поколения, она меня битый час пытала непонятными мне фразами и словами. "Ты думаешь я торгую пельменем?", "ты алень" и всё в таком духе. Закончилось вопросом "из мужского движения?". Я про него ничего не знал, ну думаю, раз мужское, значит, наверное за права мужчин. Сказал, что "да", сбежала как от огня (хотя надо было бы убедиться в одинаковости понимания терминов).
И это не единичный случай. Ещё однажды я нарвался на танец с психологом, которая изобрела "целую науку психоалхимию", и "ой, нет, у тебя корона" (тут не в смысле коронаявирус, это раньше было, это в смысле "ты зазнался" или что-то вроде того), тебе "надо прокачиваться" (но это не в смысле силовых тренировок, а улучшать внешний вид). И так далее. Это был пример на изобретённую терминологию.
А ещё слова бывают заимстоваванные (зачекинить и т.п.), причём недавно, и ещё не попавшие в словари.
ЭФ>>- в-третьих изобретение слова возможно прямо в контексте текущего диалога, и человек поймёт изобретённое слово (а словарь — нет).
TMU> Чего ты хочешь добиться с помощью этих падежей?
Хочу автоматизировать все техники работы с русским языком, изложенные в школьных учебниках русского языка. Если написано, что можно разбирать предложение по членам предложения — значит программа должна это уметь делать.
Здравствуйте, Эйнсток Файр, Вы писали:
TMU>>А как тот же Word проверяет орфографию, по-твоему?
ЭФ>Застарелые проприертарщики. Они не подарят их технологии человечеству в лице меня. А я нищеброд-голодранец и не могу выкупить исходники с патентами у них.
Так щас и куча опен-сорсных приложений проверяет орфографию, не?
Во-первых, мне надо не проверять орфографию, а иметь фреймворк-конструктор для проведения разных видов операций с текстом (разных разметок и трансформаций).
Во-вторых, их не так много, и они не дают достаточного качества.
Здравствуйте, TMU_2, Вы писали:
TMU>Да что вы нейросети всюду пихаете??
Потому что это работает, в отличие от словарей.
TMU>Если всерьез стоит такая задача — чем не устроит словарь существительных русского (или другого интересующего) языка?
Проблема со словарями в том, что язык изменяется намного быстрее чем обновляют словарь. Ты, похоже, не представляешь размер такого словаря и трудозатраты на его создания. Даже в такой узкой области как молекулярная биология, характерный размер онтологии 1Гб, а работает над ней команда экспертов человек в 300 на протяжении десятков лет.
Национальный корпус русского языка, это 300 миллионов слов которые собирают уже больше 30 лет полдюжины институтов. Там вообще нет целых пластов русского языка, от профессиональной терминологии до мемного сленга.
При этом размечен всего 1 миллион слов, это 0.1%.
Здравствуйте, vsb, Вы писали:
vsb>Хз, по-моему задача тривиальная. Составляешь словарь, склоняешь их по всем падежам и тд и просто ищешь.
Ну да, ну да. В получаешь нечто вроде:
Цитаты из русской классики со словом «калька»
голосит заунывно одна группа нищих, и десятки рук протягиваются с копеечками к деревянным чашкам убогих калек.