Информация об изменениях

Сообщение Сколько процентов всех возможных текстов имеют смысл? от 08.08.2017 1:37

Изменено 08.08.2017 1:59 Shmj

Сколько процентов всех возможных текстов имеют смысл?
Здесь для русского языка, но пологаю что это общая тенденция для всех возможных языков, типа закона Ципфа.

Средняя длина предложения в русском языке составляет 10.38 слов


Возьмем только 10 тыс. самых популярных слов. Скорее всего худо-бедно ими можно выразить любой смысл (чего нет заменять на "штуковина", "фиговина" и пр.).

Получается всего вариантов предложений 10^40.

Как вычислить хотя бы примерное значение из них, которые имеют смысл или хотя бы возможно не бессмысленны?

Для примера, берем 20 случайных наборов по 10 слов:

  Скрытый текст

Неважно дивный трусы дико пусть смириться вынимать концерт почка требоваться.
Мыслитель отличный пыльный двигатель фондовый распределить агент обучить правительство душить.
Качать порция настроение засунуть спастись спорт дуть ведущий тщательный производитель.
Повестка преобладать сгореть хлебный убрать данные пересечение алюминиевый много страшно.
Экспертиза сознательно небо полевой блистательный сократить заблуждение семейство заведение перемещение.
Воспитать контекст чудак поскольку часовой совершенно ну-ка запретный май отделение.
Аппарат рвать защитник отвернуться выбрасывать нога притихнуть презентация добродетель виновный.
Запускать проем догадываться клин аромат учредительный пропасть заключительный пятеро высказывание.
Незадолго таблица доминировать просто поселение обязанность идиотский дурацкий быстрый крест.
Сбоку сыщик драться гипотеза от разбежаться напоминать снятие датчик очертить.
Вознаграждение мельком эй романтический экскурсия спускать сей спровоцировать обрыв афиша.
Напрямую запечатлеть дождь притча телега усмотрение спрятаться чей-то выбежать погодить.
Вечный украинский усилить преобладать подъем сжигать обсуждение дворянин усмехаться знакомиться.
Журналистика всесоюзный обыкновение по-человечески фашизм лениво экспортный крохотный констатировать открытость.
Золотой манер раздраженно сорт розыск беспомощный наказывать развалиться завтракать именно.
Неведомый расстроиться ранний стеклянный утверждаться мышка спутник штора автобус вяло.
Опять-таки кошка территория связать редакционный славянин закрепление вселенная пара прикрепить.
Непременно продолжать беспощадный красить юбилей непосредственно удачно стадия внутренний низко.
Вирус классик питательный быстренько октябрь плечо тревожно возврат забыть заплакать.
Браться один глупость преувеличение столичный ипотечный хищник котлета жидкий бритва.
Порок глина злиться сотрудник автоматизированный бюро итог подпись неуловимый обезьяна.



Фишка в том, что нужно еще соблюдать синтаксис. Ну есть же языки без особого синтаксиса, наверно? В принципе, в русском языке слова тоже могут иметь произвольный порядок, регулируем окончаниями.

Сколько %% из этих 20 можно задействовать для дальнейшего построения текста со смыслом? Пусть с учетом того что в них не правильные окончания, пусть даже так.

Хоть одно найдете, где бы можно было изменить окончания/добавить частицы и получить некое предложение со смыслом?

Потом как определить вероятность того, что 2 предложения сочитаются по смыслу и дополняют друг-друга, образуют единый текст?

Изучал ли кто-нибудь этот вопрос?

Принимаются идеи.