Сколько процентов всех возможных текстов имеют смысл?
От: Shmj Ниоткуда  
Дата: 08.08.17 01:37
Оценка: 24 (1) :))
Здесь для русского языка, но полагаю что это общая тенденция для всех возможных языков, типа закона Ципфа.

Средняя длина предложения в русском языке составляет 10.38 слов


Возьмем только 10 тыс. самых популярных слов. Скорее всего худо-бедно ими можно выразить любой смысл (чего нет заменять на "штуковина", "фиговина" и пр.).

Получается всего вариантов предложений 10^40.

Как вычислить хотя бы примерное значение из них, которые имеют смысл или хотя бы возможно не бессмысленны?

Для примера, берем 20 случайных наборов по 10 слов:

  Скрытый текст

Неважно дивный трусы дико пусть смириться вынимать концерт почка требоваться.
Мыслитель отличный пыльный двигатель фондовый распределить агент обучить правительство душить.
Качать порция настроение засунуть спастись спорт дуть ведущий тщательный производитель.
Повестка преобладать сгореть хлебный убрать данные пересечение алюминиевый много страшно.
Экспертиза сознательно небо полевой блистательный сократить заблуждение семейство заведение перемещение.
Воспитать контекст чудак поскольку часовой совершенно ну-ка запретный май отделение.
Аппарат рвать защитник отвернуться выбрасывать нога притихнуть презентация добродетель виновный.
Запускать проем догадываться клин аромат учредительный пропасть заключительный пятеро высказывание.
Незадолго таблица доминировать просто поселение обязанность идиотский дурацкий быстрый крест.
Сбоку сыщик драться гипотеза от разбежаться напоминать снятие датчик очертить.
Вознаграждение мельком эй романтический экскурсия спускать сей спровоцировать обрыв афиша.
Напрямую запечатлеть дождь притча телега усмотрение спрятаться чей-то выбежать погодить.
Вечный украинский усилить преобладать подъем сжигать обсуждение дворянин усмехаться знакомиться.
Журналистика всесоюзный обыкновение по-человечески фашизм лениво экспортный крохотный констатировать открытость.
Золотой манер раздраженно сорт розыск беспомощный наказывать развалиться завтракать именно.
Неведомый расстроиться ранний стеклянный утверждаться мышка спутник штора автобус вяло.
Опять-таки кошка территория связать редакционный славянин закрепление вселенная пара прикрепить.
Непременно продолжать беспощадный красить юбилей непосредственно удачно стадия внутренний низко.
Вирус классик питательный быстренько октябрь плечо тревожно возврат забыть заплакать.
Браться один глупость преувеличение столичный ипотечный хищник котлета жидкий бритва.
Порок глина злиться сотрудник автоматизированный бюро итог подпись неуловимый обезьяна.



Вот еще 100 штук:

  Скрытый текст
1. Применять провозгласить молчать антисоветский разногласие приглашение спорить отрицательно восходить кандидатура.
2. Альтернативный мудрость бурый отметка богослужение семантический массовый дядька уменьшить факт.
3. Измерять помощь привязанность садиться придумать изображение звучание поесть осмотреть худой.
4. Автоматически житься обо клей докторский таиться край просто криминальный дитя.
5. Острота флаг скот четко возвышаться сугроб медь нужный прелесть попить.
6. Кажется завоевание шахматы жадность роща сигарета гвардия электроника обыватель дружеский.
7. Репертуар скатерть мягко командный больше уговорить розовый снег оперный по.
8. Промежуток поколение согласие распространить выносить инстинкт пожарный закрываться патрон устроиться.
9. Лыжа благой казаться афиша океан взнос обвинять беседовать выглядеть салфетка.
10. Да известие выдавать укоротить обидный смола начаться автономия буква статус.
11. Молочный ткнуть рассмеяться неизменный стоить весомый после сущность добыть версия.
12. Повар хотеться образованный торговать резной родовой копать клинический огород неясный.
13. Общественный споткнуться глаз капелька дощатый клинический социолог верховный босой контора.
14. Геологический банальный пригодиться религиозный суша носилки листок симпатия упрекать сохранять.
15. Пухлый вклад червь пахать убить райский скамья журналистский право чувственный.
16. Быт увеличивать пропасть возвести нижний бак лекарственный крестьянский кора включение.
17. Возникать церемония гонщик секунда тупо голова энергичный удивительно шепнуть просить.
18. Подчиняться желтый багажник вроде цилиндр дергаться отдать неужели внушительный случай.
19. Отворачиваться уже отойти утонуть бывший чреватый секретарь тундра близкий молитва.
20. Выплата новосибирский выкуп интересоваться серия выдающийся любезный осужденный сад наиболее.
21. Хитрый подземный устойчивый урна раздаваться смех усвоить фракция подействовать вероятность.
22. Уговорить аромат арсенал дружеский различать рано музыкант свечка тип неприличный.
23. Опереться щедрый рубашка присесть щедрый цвести крикнуть опускать козырек ужасно.
24. Декабрь миф международный неуверенно ферма тепловой машинально оказывать вдоль забивать.
25. Танк убитый недопустимый выставлять осматривать непременный оплата тем экспортный клетка.
26. Мера вскинуть скрипеть пальто сумка гвардия странный взамен заложить ложечка.
27. Бы родственник настроить творец поселок пьеса лишение подол сувенир заготовить.
28. Осенний важный тринадцать включать подчинить собака порадовать заверить наливать парашют.
29. Районный имидж индеец лить сменить соблюдение приблизить ныть молочный только-только.
30. Мед праздновать вишня стенка опровергнуть основа приход ненавидеть поверх перемещение.
31. Пуговица согласие провинциальный серийный кролик взмахнуть давать очерк первое стоимость.
32. Чек жевать целиком союзник статуя бытовой идеологический вектор непонятный застраховать.
33. Антитело каблук упражнение текст обследование казарма приходить любоваться оглянуться пожелание.
34. Отделка презирать принимать текст натура лагерь сестра рынок экономика показание.
35. Парламент переходить мокрый сосуд ого сыщик добиваться квадрат отрывок цвести.
36. Живописный мат стоить такт режим замминистра уютно покончить проявляться уходить.
37. Зубр впрямь вывести партия сумасшедший убрать отрицать дитя святой функционирование.
38. Оттого террорист тоненький морковь поверх крест певец пока безопасность казак.
39. Планировать плакат подтверждаться разборка реалия планета столовый тренировка оправдаться противоречить.
40. Подхватить откровение колхозный также силовой безупречный тот характеристика сфера упрекать.
41. Толчок передать стыд активность сок юмор нью-йоркский птица перевод незачем.
42. Зажать кланяться закурить допрашивать студентка сбежать выяснять классификация юридический предлагать.
43. Струна вокруг легенда сдвиг норма античный доехать соленый уволить гонорар.
44. Ручка изображение материк мышка зажмуриться устать предприятие выигрывать старшина рождество.
45. Проявление бензин четко средний украинец доброта передний нагнуться родить смежный.
46. Пьеса корзина почти сделать помогать усталый лягушка топить снег возвести.
47. Пассажирский незаконный четырнадцать осознавать негде слабость одесский принцип швырять фундамент.
48. Раздражение право линия экономист преграда научиться полосатый отчет всплыть капитализм.
49. Старшина подписка головной объятие обедать разыскать торговый тачка привет транслит.
50. Личной высказать позор нанять углубление раскол извлекать бархатный пламя пробить.
51. Ветерок исключение причудливый несправедливый поменять сведение применить встречный автобус канава.
52. Родительский ять вязать десятка воспринимать грянуть из-за ученый воспроизводить сосиска.
53. Европейский постареть индеец прелесть обеспечить запад щит помешать числиться возвышенный.
54. Батарея строительство послушный развитой выписывать выдавать придаток пристально никто задумчиво.
55. Всеобщий выпивка пружина обойти приют нарушитель сложно во коллегия ещё.
56. Соединяться обидный брюхо палатка римский лить пожалеть сайт коляска уступать.
57. Титул знание улечься осуществление мент вакцина групповой теряться тумбочка ты.
58. Дополнять дожидаться грудь поручик приблизить славный губернатор заканчивать публично пища.
59. Сурово елка минерал промежуток занять продавщица научить наряд прославить написать.
60. Незачем безнадежно степень восстание багаж замок окрестный ничуть резина мрачный.
61. Меняться пересмотреть привлекать оторваться определять тротуар донести научиться смириться успеть.
62. Закуска вариация разворачиваться шапка разбитый поднимать случаться попросить охрана стричь.
63. Предоставить природный законность надо пользоваться зря преподаватель собачий однозначный ведать.
64. Трамвай вектор пират устойчивый левый сироп мясо отрезать присоединиться вытаскивать.
65. Свет дядя въезд резина усесться свирепый клад выговорить это редкость.
66. Пианино пересечение убеждение побеседовать поведение их род догадка немного сбережение.
67. Вниз приобрести бассейн прочее парадоксальный показываться социалистический плоский учебный исчезновение.
68. Стена взлетать простыня вырвать мерзкий носить разглядывать венок физика начинаться.
69. Напротив запрещать барьер жара пищевой атом натура гепатит характерный подготовка.
70. Евангельский нетерпение именно выбрасывать затянуться рявкнуть военно-морской приблизить реклама осколок.
71. Коленка тревожить припомнить кругом взятка гореть стандартный бдительность узнавать город.
72. Противно коммерческий подземный интеллектуальный облегчить заданный чекист девятнадцатый пена общение.
73. Рубка комсомол куда-то молчать эмпирический взятка блеснуть канава приписать дюжина.
74. Догадываться наткнуться старенький обобщение красиво ненадолго плавный нормальный щелкать выжить.
75. Прежний переводчик толкнуть дурак сократить сформироваться спрос вывеска укрытие баржа.
76. Предусмотреть догонять столица апельсин вешалка кто-то проба расспрашивать сторож и.
77. Понедельник спаситель макет встречать глухо участник здешний употребление расправа спокойно.
78. Зубной количественный строительство мощность объяснить выделить понятный должен массив сам.
79. Танк участие курировать донор заголовок печаль социально-экономический расширять гимнастика железо.
80. Встречать пустыня извлечь щелкать тысяча низ тактика советовать светить гнать.
81. Химический приводиться спиртное шашлык родить калитка разногласие рыть апелляционный монтаж.
82. Вежливость внешне представительный зачем-то забыться шутить уверить символика посидеть доказательство.
83. Относить молекулярный погаснуть покончить идол вплоть странно заходить пиво придать.
84. Генштаб странность укрепить соглашаться вращение газетный эффективный полковник объемный россиянин.
85. Бор последовательный обязывать исходить кинотеатр пасть сжать запястье кожа интегрировать.
86. Произведение улететь взять исполнить беспощадный изменять роман глазок общероссийский весь.
87. Секс направо краснеть ирония человеческий школа зарезать доставка грабить рыночный.
88. Клуб прогулка непосредственно она конструктор потому сокровенный спирт небритый вина.
89. Последователь биться помогать необыкновенный протяжение законодательство накинуть стандарт пошутить посидеть.
90. Химия перенос рассматриваться лак почет лечение спиртное повесить главное удерживать.
91. Прогнать поклясться швырять выплачивать ограничивать списать тренер лишь блокировать обидный.
92. Роковой поплыть приблизиться утешать обеспечение совершенно беречь логика выпуск трус.
93. Договориться предшественник грант развлечение репортаж отель немец влажный плохой крикнуть.
94. Серый всяческий подчеркивать выразиться рваться туда-сюда супруг технологический чек любовник.
95. Представать колхозник охотно диаграмма кучка кабель супруг откровение счастливо ассистент.
96. Запрещаться выбежать крыша библиотека кладбище таков анализ жидкий квартира доверие.
97. Совать похлопать потомство наутро жадно бросок исчезать копаться интересоваться трудность.
98. Устало печать менеджер соблазн процент стабильность заметно заход азарт хитро.
99. Кровля милость жук сентябрь совпадать светский создатель северный полк согласный.
100. Предсказать прислониться брак руда имперский подействовать подражать связываться изучить краснодарский.


Фишка в том, что нужно еще соблюдать синтаксис. Ну есть же языки без особого синтаксиса, наверно? В принципе, в русском языке слова тоже могут иметь произвольный порядок, регулируем окончаниями.

Сколько %% из этих 20 можно задействовать для дальнейшего построения текста со смыслом? Пусть с учетом того что в них не правильные окончания, пусть даже так.

Хоть одно найдете, где бы можно было изменить окончания/добавить частицы и получить некое предложение со смыслом?

Потом как определить вероятность того, что 2 предложения сочетаются по смыслу и дополняют друг-друга, образуют единый текст?

Изучал ли кто-нибудь этот вопрос?

Принимаются идеи.
Отредактировано 08.08.2017 2:46 Shmj . Предыдущая версия . Еще …
Отредактировано 08.08.2017 1:59 Shmj . Предыдущая версия .
Отредактировано 08.08.2017 1:59 Shmj . Предыдущая версия .
Re: Сколько процентов всех возможных текстов имеют смысл?
От: vmpire Россия  
Дата: 08.08.17 06:14
Оценка:
Здравствуйте, Shmj, Вы писали:

S>Сколько %% из этих 20 можно задействовать для дальнейшего построения текста со смыслом? Пусть с учетом того что в них не правильные окончания, пусть даже так.

S>Хоть одно найдете, где бы можно было изменить окончания/добавить частицы и получить некое предложение со смыслом?
S>Потом как определить вероятность того, что 2 предложения сочетаются по смыслу и дополняют друг-друга, образуют единый текст?
S>Изучал ли кто-нибудь этот вопрос?
А это зачем-то нужно кроме праздного любопытства?
Re: Сколько процентов всех возможных текстов имеют смысл?
От: D. Mon Великобритания http://thedeemon.livejournal.com
Дата: 08.08.17 07:49
Оценка: +1 :)
Здравствуйте, Shmj, Вы писали:

S>Как вычислить хотя бы примерное значение из них, которые имеют смысл или хотя бы возможно не бессмысленны?


В Яндексе должны знать, их робот вот такие тексты легко генерит:

Позитивизм диссонирует максимум по мере распространения сигнала в среде с инверсной населенностью. Шиллер утверждал: прямоугольная матрица представляет собой драматизм, как и предполагалось. Квантовое состояние реально аккумулирует бессознательный кристалл, однако Зигварт считал критерием истинности необходимость и общезначимость, для которых нет никакой опоры в объективном мире. Среда притягивает бозе-конденсат. Геометрическая прогрессия, по определению, трансформирует циркулирующий критерий интегрируемости, что лишний раз подтверждает правоту Эйнштейна.

https://yandex.ru/referats/?t=mathematics+physics+philosophy+estetica&s=48970

Берем много осмысленных текстов и смотрим на статистику распределения с учетом контекста (N последних слов) :
Для каждого слова W какова его вероятность появления после слова A?
Для каждого слова W какова его вероятность появления после пары слов A B?
Для каждого слова W какова его вероятность появления после тройки слов A B С?
и так далее, получим статистическую модель.
Чем длиннее контекст, тем больше в таблице будет нулей. Ну а дальше уже простой тервер, зная распределение реально встречающихся сочетаний, посчитать отношение правдоподобно выглядящих цепочек к общему количеству возможных. Это то, чем генератор выше занимается — генерит такие цепочки. Согласовать их по падежам — уже простое дело техники.
Re: Сколько процентов всех возможных текстов имеют смысл?
От: alpha21264 СССР  
Дата: 08.08.17 09:08
Оценка: 2 (1)
Здравствуйте, Shmj, Вы писали:

S>Здесь для русского языка, но полагаю что это общая тенденция для всех возможных языков, типа закона Ципфа.


S>Возьмем только 10 тыс. самых популярных слов. Скорее всего худо-бедно ими можно выразить любой смысл (чего нет заменять на "штуковина", "фиговина" и пр.).


S>Получается всего вариантов предложений 10^40.


S>Как вычислить хотя бы примерное значение из них, которые имеют смысл или хотя бы возможно не бессмысленны?


Если ты опять про эволюцию, то ты опять взял негодную модель.

Известен такой факт. Яркий солнечный свет ломает ДНК бактерий.
Так вот они берут обрывки ДНК из окружающей среды и встраивают их в свой геном.
Из чего можно сделать вывод, что на языке ДНК любое сочетание имеет смысл.

Течёт вода Кубань-реки куда велят большевики.
Re[2]: Сколько процентов всех возможных текстов имеют смысл?
От: Ops Россия  
Дата: 08.08.17 10:13
Оценка: :)
Здравствуйте, D. Mon, Вы писали:

DM>В Яндексе должны знать, их робот вот такие тексты легко генерит:

Туфта, все намного проще:


    В ответ на . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    мы, геркулесовцы, как один человек, ответим:

        а) повышением качества продукции,
        б) увеличением производительности труда,
        в) усилением борьбы с бюрократизмом, волокитой, кумовством и подхалимством,
        г) уничтожением прогулов,
        д) уменьшением накладных расходов,
        е) общим ростом профсоюзной активности,
        ж) отказом от празднования Рождества, Пасхи, Троицы, Благовещения, Крещения и др . религиозных праздников,
        з) беспощадной борьбой с головотяпством, хулиганством и пьянством, и) поголовным вступлением в ряды общества «Долой рутину с оперных подмостков»,
        к) поголовным переходом на новый быт,
        л) поголовным переводом делопроизводства на латинский алфавит.
        А также всем, что понадобится впредь.
Переубедить Вас, к сожалению, мне не удастся, поэтому сразу перейду к оскорблениям.
Re[2]: Сколько процентов всех возможных текстов имеют смысл?
От: Shmj Ниоткуда  
Дата: 08.08.17 14:59
Оценка:
Здравствуйте, vmpire, Вы писали:

V>А это зачем-то нужно кроме праздного любопытства?


А доказательство теоремы Пуанкаре зачем-то нужно, кроме праздного любопытства?

Вообще в мире ничего не нужно. Жить можно и без электричества и без интернета и без радио. 100 тыс. лет люди так жили и еще бы 100 тыс. прожили, а вот наука скорее подвергает жизнь опасности, так как приводит к загрязнению воды и воздуха.

Все делается исключительно ради праздного любопытства. Причем свиду не интересная вещь может привести к очень интересным выводам.
Re[2]: Сколько процентов всех возможных текстов имеют смысл?
От: Shmj Ниоткуда  
Дата: 08.08.17 15:03
Оценка:
Здравствуйте, D. Mon, Вы писали:

DM>В Яндексе должны знать, их робот вот такие тексты легко генерит:

DM>

Позитивизм диссонирует максимум по мере распространения сигнала в среде с инверсной населенностью. Шиллер утверждал: прямоугольная матрица представляет собой драматизм, как и предполагалось. Квантовое состояние реально аккумулирует бессознательный кристалл, однако Зигварт считал критерием истинности необходимость и общезначимость, для которых нет никакой опоры в объективном мире. Среда притягивает бозе-конденсат. Геометрическая прогрессия, по определению, трансформирует циркулирующий критерий интегрируемости, что лишний раз подтверждает правоту Эйнштейна.

DM>https://yandex.ru/referats/?t=mathematics+physics+philosophy+estetica&s=48970

Это всего лишь синтаксически правильные тексты, скорее всего даже основаны на результатах уже существующих текстов. Смыла в них нет -- это ахинея!

DM>Чем длиннее контекст, тем больше в таблице будет нулей. Ну а дальше уже простой тервер, зная распределение реально встречающихся сочетаний, посчитать отношение правдоподобно выглядящих цепочек к общему количеству возможных.


Здесь ваша ключевая ошибка. Нужно не правдоподобно выглядящие а имеющие или возможно имеющие смысл. Ахинею следует отсеивать, даже если сказана синтаксически правильно.

DM>Это то, чем генератор выше занимается — генерит такие цепочки. Согласовать их по падежам — уже простое дело техники.


А как отфильтровать ахинею? Пока только методом сознательного анализа.
Re[2]: Сколько процентов всех возможных текстов имеют смысл?
От: Shmj Ниоткуда  
Дата: 08.08.17 15:04
Оценка:
Здравствуйте, alpha21264, Вы писали:

A>Так вот они берут обрывки ДНК из окружающей среды и встраивают их в свой геном.

A>Из чего можно сделать вывод, что на языке ДНК любое сочетание имеет смысл.

Не любое, просто там много мусора. И мусор можно легко отличить от кодирующей части.
Re[3]: Сколько процентов всех возможных текстов имеют смысл?
От: alpha21264 СССР  
Дата: 08.08.17 15:12
Оценка:
Здравствуйте, Shmj, Вы писали:

S>Здравствуйте, alpha21264, Вы писали:


A>>Так вот они берут обрывки ДНК из окружающей среды и встраивают их в свой геном.

A>>Из чего можно сделать вывод, что на языке ДНК любое сочетание имеет смысл.

S>Не любое, просто там много мусора. И мусор можно легко отличить от кодирующей части.


1) Ну ты понимаешь, как наличие мусора влияет на твои оценки?
Если от гигабайта человеческого генома остаётся 30 мегабайт
полезного кода (как сказал коллега Cyberax),
cколько нулей тебе придётся отбросить в показателе степени?

2) Горизонтальный перенос генов таки есть.
И в природе и в геннетических экспериментах учёных.
Внедрение генов рыбы в банан сейчас никого не удивляет.

Течёт вода Кубань-реки куда велят большевики.
Re[4]: Сколько процентов всех возможных текстов имеют смысл?
От: Shmj Ниоткуда  
Дата: 08.08.17 15:40
Оценка:
Здравствуйте, alpha21264, Вы писали:

A>1) Ну ты понимаешь, как наличие мусора влияет на твои оценки?

A>Если от гигабайта человеческого генома остаётся 30 мегабайт
A>полезного кода (как сказал коллега Cyberax),
A>cколько нулей тебе придётся отбросить в показателе степени?

Я брал 100 Мб. Сомневаюсь на счет 30, таких оценок нигде не находил, разберемся с ним, если он отвечает за слова.

Если 30 Мб, то получается 10^9030899 вариантов. Даже если вариантов со смыслом триллион триллионов, то остается минимум 10^9030800 вариантов перебора разных мутаций нужно было сделать. За пределами возможностей способностей нашей Вселенной. Вселенная даже 100 байт хеша перебрать не в силах.

A>2) Горизонтальный перенос генов таки есть.

A>И в природе и в геннетических экспериментах учёных.
A>Внедрение генов рыбы в банан сейчас никого не удивляет.

Меня интересуют числовые данные.
Re[3]: Сколько процентов всех возможных текстов имеют смысл?
От: D. Mon Великобритания http://thedeemon.livejournal.com
Дата: 08.08.17 17:30
Оценка:
Здравствуйте, Shmj, Вы писали:

S>Нужно не правдоподобно выглядящие а имеющие или возможно имеющие смысл. Ахинею следует отсеивать, даже если сказана синтаксически правильно.


Это нерешаемая задача тогда. Для кого-то один набор слов имеет смысл, а для кого-то выглядит ахинеей.
Попробуй определить, где ахинея, а где осмысленные фразы тут:

1) Восемью восемь — сто.
2) Бог есть любовь.
3) В модуле над кольцом без деления обязательно существует базис.
4) В модуле над кольцом без деления не обязательно существует базис.
5) В кольце деления по модулю есть делители нуля.
6) Фаза дзогрим следует за къедрим и является прямым аналогом випашьяны, следующей за шаматхой.
7) Йогачарья мадхъямака сватантрика в изложении Шантаракшиты имеет ряд преимуществ перед прасангикой Нагарджуны.
8) Вселенная пахнет нефтью.
9) Банан большой, а кожура еще больше.
10) Для любого локально тривиального расслоения pi : X -> B и непрерывного отображения f : B -> B' индуцированное расслоение f*(pi) является локально тривиальным.
Отредактировано 08.08.2017 17:32 D. Mon . Предыдущая версия .
Re[4]: Сколько процентов всех возможных текстов имеют смысл?
От: Shmj Ниоткуда  
Дата: 08.08.17 18:12
Оценка:
Здравствуйте, D. Mon, Вы писали:

DM>Это нерешаемая задача тогда. Для кого-то один набор слов имеет смысл, а для кого-то выглядит ахинеей.


Иногда нельзя точно определить есть смысл в тексте или нет. Но таких случаев сравнительно мало. Для упрощения предлагаю эти варианты вынести в отдельную группу "возможно имеющие смысл".

Есть тексты, которые могут обрести смысл только в контексте чего-либо. Тогда интересна оценка вероятности случайного возникновения данного контекста.

DM>Попробуй определить, где ахинея, а где осмысленные фразы тут:


DM>1) Восемью восемь — сто.


Может обрести смысл только в контексте (как пример неверного вывода и пр.). Тогда рассматриваем вариант случайного возниновения такого контекста.

DM>2) Бог есть любовь.


Вариант "возможно имеют смысл" (верить можно, но проверить нельзя). Такие варианты я бы выделил в особую группу "возможно имеют смысл", их мало.

DM>3) В модуле над кольцом без деления обязательно существует базис.

DM>4) В модуле над кольцом без деления не обязательно существует базис.
DM>5) В кольце деления по модулю есть делители нуля.

В научных утверждениях если одно не верно, то может быть применено только в контексте неверного вывода и пр.

Мне сложно сказать, скорее бы отнес к тем которые "возможно имеют смысл" и "обретают смысл в контексте" (точнее скажет тот кто в этой теме работает).

Здесь интересен вопрос случайного возникновения второго и пр. предложений, которое продолжит мысль и в результате добавления которого не получится ахинея.

DM>6) Фаза дзогрим следует за къедрим и является прямым аналогом випашьяны, следующей за шаматхой.

DM>7) Йогачарья мадхъямака сватантрика в изложении Шантаракшиты имеет ряд преимуществ перед прасангикой Нагарджуны.

Здесь у вас узкоспециализированные религиозные термины. У этих терминов очень точный смысл.

Если даже вы написали в точности с буддистскими взглядами -- все равно относим к "возможно имещие смысл". Ведь их теория еще не проверена и может оказаться ошибочной.

Если же вы намеренно исказили термины (я терминов их не знаю) -- то не имеет смысла.

DM>8) Вселенная пахнет нефтью.


См. 1

DM>9) Банан большой, а кожура еще больше.


В принципе смысл есть, но требуется уточняющий контекс.

DM>10) Для любого локально тривиального расслоения pi : X -> B и непрерывного отображения f : B -> B' индуцированное расслоение f*(pi) является локально тривиальным.


См. 3, 4, 5

Вы намеренно подобрали сложные примеры. Для быстрой оценки я бы их сразу определял в группу #3 -- возможно имеют смысл. Их не так много.

Сейчас мы рассмотрели только на уровне предложений. А ведь предложения соединяются в осмысленный текс и вероятность что случайно возникнет второе предложение, раскрывающее/уточняющее мысль первого -- еще меньше.

Мне интересно будет ли экспоненциальное нарастание сложности или нет?
Отредактировано 08.08.2017 18:17 Shmj . Предыдущая версия . Еще …
Отредактировано 08.08.2017 18:16 Shmj . Предыдущая версия .
Отредактировано 08.08.2017 18:16 Shmj . Предыдущая версия .
Re: Сколько процентов всех возможных текстов имеют смысл?
От: Qulac Россия  
Дата: 08.08.17 18:23
Оценка:
S> Здравствуйте, Shmj, Вы писали:


S>Для примера, берем 20 случайных наборов по 10 слов:


S>

S>Неважно дивный трусы дико пусть смириться вынимать концерт почка требоваться.
S>Мыслитель отличный пыльный двигатель фондовый распределить агент обучить правительство душить.
S>Качать порция настроение засунуть спастись спорт дуть ведущий тщательный производитель.
S>Повестка преобладать сгореть хлебный убрать данные пересечение алюминиевый много страшно.
S>Экспертиза сознательно небо полевой блистательный сократить заблуждение семейство заведение перемещение.
S>Воспитать контекст чудак поскольку часовой совершенно ну-ка запретный май отделение.
S>Аппарат рвать защитник отвернуться выбрасывать нога притихнуть презентация добродетель виновный.
S>Запускать проем догадываться клин аромат учредительный пропасть заключительный пятеро высказывание.
S>Незадолго таблица доминировать просто поселение обязанность идиотский дурацкий быстрый крест.
S>Сбоку сыщик драться гипотеза от разбежаться напоминать снятие датчик очертить.
S>Вознаграждение мельком эй романтический экскурсия спускать сей спровоцировать обрыв афиша.
S>Напрямую запечатлеть дождь притча телега усмотрение спрятаться чей-то выбежать погодить.
S>Вечный украинский усилить преобладать подъем сжигать обсуждение дворянин усмехаться знакомиться.
S>Журналистика всесоюзный обыкновение по-человечески фашизм лениво экспортный крохотный констатировать открытость.
S>Золотой манер раздраженно сорт розыск беспомощный наказывать развалиться завтракать именно.
S>Неведомый расстроиться ранний стеклянный утверждаться мышка спутник штора автобус вяло.
S>Опять-таки кошка территория связать редакционный славянин закрепление вселенная пара прикрепить.
S>Непременно продолжать беспощадный красить юбилей непосредственно удачно стадия внутренний низко.
S>Вирус классик питательный быстренько октябрь плечо тревожно возврат забыть заплакать.
S>Браться один глупость преувеличение столичный ипотечный хищник котлета жидкий бритва.
S>Порок глина злиться сотрудник автоматизированный бюро итог подпись неуловимый обезьяна.


Если генерировать предложения по определённой структуре, например: "прилагательно, существительное, глагол и т.д", то покрайней мере часто смешно получается.
Программа – это мысли спрессованные в код
Отредактировано 08.08.2017 18:29 Qulac . Предыдущая версия .
Re[2]: Сколько процентов всех возможных текстов имеют смысл?
От: Shmj Ниоткуда  
Дата: 08.08.17 18:34
Оценка:
Здравствуйте, Qulac, Вы писали:

Q>Если генерировать предложения по определённой структуре, например: "прилагательно, существительное, глагол и т.д", то покрайней мере часто смешно получается.


Попробуйте так осмысленный текст сгенерить. Хотя бы чтобы 2-3 предложения получилось.
Re[3]: Сколько процентов всех возможных текстов имеют смысл?
От: Qulac Россия  
Дата: 08.08.17 18:47
Оценка: +1 :)
Здравствуйте, Shmj, Вы писали:

S>Здравствуйте, Qulac, Вы писали:


Q>>Если генерировать предложения по определённой структуре, например: "прилагательно, существительное, глагол и т.д", то покрайней мере часто смешно получается.


S>Попробуйте так осмысленный текст сгенерить. Хотя бы чтобы 2-3 предложения получилось.


Искал генератор случайных слов, нашёл вот это: Генератор слов. Вот что он мне выдал про кывт:

кывт. Капля святого есть в каждом.


Судя по всему, проблема решаемая.
Программа – это мысли спрессованные в код
Отредактировано 08.08.2017 18:50 Qulac . Предыдущая версия .
Re[4]: Сколько процентов всех возможных текстов имеют смысл?
От: Shmj Ниоткуда  
Дата: 08.08.17 19:08
Оценка:
Здравствуйте, Qulac, Вы писали:

Q>Вот что он мне выдал про кывт:


Не факт что тексты абсолютно случайные.

Q>Судя по всему, проблема решаемая.

Q>

Я не говорю что не решаемая. Среди случайных предложений всегда будут имещие смысл. Вопрос лишь в их количестве.

Второй вопрос -- генерация согласованных друг с другом предложений, т.е. вероятность что 2 предложения совпадут по смыслу и не будут противоречить друг другу.
Re[5]: Сколько процентов всех возможных текстов имеют смысл?
От: D. Mon Великобритания http://thedeemon.livejournal.com
Дата: 08.08.17 19:39
Оценка: +2
Здравствуйте, Shmj, Вы писали:

DM>>1) Восемью восемь — сто.


S>Может обрести смысл только в контексте (как пример неверного вывода и пр.). Тогда рассматриваем вариант случайного возниновения такого контекста.


В восьмеричной системе 8*8=100.
Все верно, оценка того, есть во фразе или тексте смысл или нет, полностью зависит от контекста в голове читающего. Сами по себе слова ничего не значат и никакого смысла не имеют, только в контексте. Поэтому без формализации и фиксации какого-то контекста невозможно дать никакой ответ на такую задачу.

Отдельный вопрос — считать ли ахинеей ложные высказывания. Я в том списке специально местами внес искажения, так что фраза может и выглядит осмысленной, но на деле ахинея.
Re[5]: Сколько процентов всех возможных текстов имеют смысл?
От: D. Mon Великобритания http://thedeemon.livejournal.com
Дата: 08.08.17 19:46
Оценка: +1
Здравствуйте, Shmj, Вы писали:

S>Вариант "возможно имеют смысл" (верить можно, но проверить нельзя). Такие варианты я бы выделил в особую группу "возможно имеют смысл", их мало.


Вот тут сомневаюсь. Мне кажется, если взять простую фразу, имеющую смысл (для юзера Shmj, например), то путем простой замены одного или пары слов из нее можно получить похожую фразу, которая тут же попадет в класс "возможно имеют смысл". Т.е. на одну осмысленную придутся сотни "возможно осмысленных".
Re[6]: Сколько процентов всех возможных текстов имеют смысл?
От: Shmj Ниоткуда  
Дата: 08.08.17 19:56
Оценка:
Здравствуйте, D. Mon, Вы писали:

DM>В восьмеричной системе 8*8=100.

DM>Все верно, оценка того, есть во фразе или тексте смысл или нет, полностью зависит от контекста в голове читающего. Сами по себе слова ничего не значат и никакого смысла не имеют, только в контексте. Поэтому без формализации и фиксации какого-то контекста невозможно дать никакой ответ на такую задачу.

Верно. Вообще речь о случайном возникновении какого-либо текста, включая контекст. Т.е. такой текст, смысл которого вы поймете однозначно.

Конечно, когда 1 фраза или даже 1 предложение -- очень редко можно однозначно понять смысл.

И, думаю, оценку нужно начать с вероятности случайного возникновения предложения, которое потенциально может быть задействовано в создании такого контекста. Ведь многие предложения сразу можно исключить.

DM>Отдельный вопрос — считать ли ахинеей ложные высказывания. Я в том списке специально местами внес искажения, так что фраза может и выглядит осмысленной, но на деле ахинея.


Ложные могут иметь смысл только в контексте ошибочных выводов и подобного.

Главный вопрос такой: если мы будем составлять текст из случайных предложений, будет ли экспоненциальный рост сложности генерации каждого нового предложения? К примеру, первое предложение можно выбрать из 10^38 вариантов. Второе только из 5^38, третье только из 2^38 и т.д.
Re[6]: Сколько процентов всех возможных текстов имеют смысл?
От: Shmj Ниоткуда  
Дата: 08.08.17 20:12
Оценка:
Здравствуйте, D. Mon, Вы писали:

DM>Вот тут сомневаюсь. Мне кажется, если взять простую фразу, имеющую смысл (для юзера Shmj, например), то путем простой замены одного или пары слов из нее можно получить похожую фразу, которая тут же попадет в класс "возможно имеют смысл". Т.е. на одну осмысленную придутся сотни "возможно осмысленных".


Нужно вычислять. Однако если взять 2-3 таких предложения, "возможно имеющих смысл" и попытаться соединить -- сразу будет видно что текст лишен смысла.

1. Сначала узнаем сколько предложений из 1000 имеют смысл, сколько "возможно имеют" и сколько не имеют.
2. Потом узнаем сколько комбинаций из 2 предложений обладают данными свойствами.
3. Увеличиваем до 3 предложений.

Чем больше предложений, тем меньше шансов остается получить согласованный текст со смыслом или даже с возможным смыслом. Есть возражения?

Понятно что точности здесь быть не может, но хотя бы примерные оценки, думаю, возможны.
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.