Здесь для русского языка, но полагаю что это общая тенденция для всех возможных языков, типа закона Ципфа.
Средняя длина предложения в русском языке составляет 10.38 слов
Возьмем только 10 тыс. самых популярных слов. Скорее всего худо-бедно ими можно выразить любой смысл (чего нет заменять на "штуковина", "фиговина" и пр.).
Получается всего вариантов предложений 10^40.
Как вычислить хотя бы примерное значение из них, которые имеют смысл или хотя бы возможно не бессмысленны?
Для примера, берем 20 случайных наборов по 10 слов:
Скрытый текст
Неважно дивный трусы дико пусть смириться вынимать концерт почка требоваться.
Мыслитель отличный пыльный двигатель фондовый распределить агент обучить правительство душить.
Качать порция настроение засунуть спастись спорт дуть ведущий тщательный производитель.
Повестка преобладать сгореть хлебный убрать данные пересечение алюминиевый много страшно.
Экспертиза сознательно небо полевой блистательный сократить заблуждение семейство заведение перемещение.
Воспитать контекст чудак поскольку часовой совершенно ну-ка запретный май отделение.
Аппарат рвать защитник отвернуться выбрасывать нога притихнуть презентация добродетель виновный.
Запускать проем догадываться клин аромат учредительный пропасть заключительный пятеро высказывание.
Незадолго таблица доминировать просто поселение обязанность идиотский дурацкий быстрый крест.
Сбоку сыщик драться гипотеза от разбежаться напоминать снятие датчик очертить.
Вознаграждение мельком эй романтический экскурсия спускать сей спровоцировать обрыв афиша.
Напрямую запечатлеть дождь притча телега усмотрение спрятаться чей-то выбежать погодить.
Вечный украинский усилить преобладать подъем сжигать обсуждение дворянин усмехаться знакомиться.
Журналистика всесоюзный обыкновение по-человечески фашизм лениво экспортный крохотный констатировать открытость.
Золотой манер раздраженно сорт розыск беспомощный наказывать развалиться завтракать именно.
Неведомый расстроиться ранний стеклянный утверждаться мышка спутник штора автобус вяло.
Опять-таки кошка территория связать редакционный славянин закрепление вселенная пара прикрепить.
Непременно продолжать беспощадный красить юбилей непосредственно удачно стадия внутренний низко.
Вирус классик питательный быстренько октябрь плечо тревожно возврат забыть заплакать.
Браться один глупость преувеличение столичный ипотечный хищник котлета жидкий бритва.
Порок глина злиться сотрудник автоматизированный бюро итог подпись неуловимый обезьяна.
Вот еще 100 штук:
Скрытый текст
1. Применять провозгласить молчать антисоветский разногласие приглашение спорить отрицательно восходить кандидатура.
2. Альтернативный мудрость бурый отметка богослужение семантический массовый дядька уменьшить факт.
3. Измерять помощь привязанность садиться придумать изображение звучание поесть осмотреть худой.
4. Автоматически житься обо клей докторский таиться край просто криминальный дитя.
5. Острота флаг скот четко возвышаться сугроб медь нужный прелесть попить.
6. Кажется завоевание шахматы жадность роща сигарета гвардия электроника обыватель дружеский.
7. Репертуар скатерть мягко командный больше уговорить розовый снег оперный по.
8. Промежуток поколение согласие распространить выносить инстинкт пожарный закрываться патрон устроиться.
9. Лыжа благой казаться афиша океан взнос обвинять беседовать выглядеть салфетка.
10. Да известие выдавать укоротить обидный смола начаться автономия буква статус.
11. Молочный ткнуть рассмеяться неизменный стоить весомый после сущность добыть версия.
12. Повар хотеться образованный торговать резной родовой копать клинический огород неясный.
13. Общественный споткнуться глаз капелька дощатый клинический социолог верховный босой контора.
14. Геологический банальный пригодиться религиозный суша носилки листок симпатия упрекать сохранять.
15. Пухлый вклад червь пахать убить райский скамья журналистский право чувственный.
16. Быт увеличивать пропасть возвести нижний бак лекарственный крестьянский кора включение.
17. Возникать церемония гонщик секунда тупо голова энергичный удивительно шепнуть просить.
18. Подчиняться желтый багажник вроде цилиндр дергаться отдать неужели внушительный случай.
19. Отворачиваться уже отойти утонуть бывший чреватый секретарь тундра близкий молитва.
20. Выплата новосибирский выкуп интересоваться серия выдающийся любезный осужденный сад наиболее.
21. Хитрый подземный устойчивый урна раздаваться смех усвоить фракция подействовать вероятность.
22. Уговорить аромат арсенал дружеский различать рано музыкант свечка тип неприличный.
23. Опереться щедрый рубашка присесть щедрый цвести крикнуть опускать козырек ужасно.
24. Декабрь миф международный неуверенно ферма тепловой машинально оказывать вдоль забивать.
25. Танк убитый недопустимый выставлять осматривать непременный оплата тем экспортный клетка.
26. Мера вскинуть скрипеть пальто сумка гвардия странный взамен заложить ложечка.
27. Бы родственник настроить творец поселок пьеса лишение подол сувенир заготовить.
28. Осенний важный тринадцать включать подчинить собака порадовать заверить наливать парашют.
29. Районный имидж индеец лить сменить соблюдение приблизить ныть молочный только-только.
30. Мед праздновать вишня стенка опровергнуть основа приход ненавидеть поверх перемещение.
31. Пуговица согласие провинциальный серийный кролик взмахнуть давать очерк первое стоимость.
32. Чек жевать целиком союзник статуя бытовой идеологический вектор непонятный застраховать.
33. Антитело каблук упражнение текст обследование казарма приходить любоваться оглянуться пожелание.
34. Отделка презирать принимать текст натура лагерь сестра рынок экономика показание.
35. Парламент переходить мокрый сосуд ого сыщик добиваться квадрат отрывок цвести.
36. Живописный мат стоить такт режим замминистра уютно покончить проявляться уходить.
37. Зубр впрямь вывести партия сумасшедший убрать отрицать дитя святой функционирование.
38. Оттого террорист тоненький морковь поверх крест певец пока безопасность казак.
39. Планировать плакат подтверждаться разборка реалия планета столовый тренировка оправдаться противоречить.
40. Подхватить откровение колхозный также силовой безупречный тот характеристика сфера упрекать.
41. Толчок передать стыд активность сок юмор нью-йоркский птица перевод незачем.
42. Зажать кланяться закурить допрашивать студентка сбежать выяснять классификация юридический предлагать.
43. Струна вокруг легенда сдвиг норма античный доехать соленый уволить гонорар.
44. Ручка изображение материк мышка зажмуриться устать предприятие выигрывать старшина рождество.
45. Проявление бензин четко средний украинец доброта передний нагнуться родить смежный.
46. Пьеса корзина почти сделать помогать усталый лягушка топить снег возвести.
47. Пассажирский незаконный четырнадцать осознавать негде слабость одесский принцип швырять фундамент.
48. Раздражение право линия экономист преграда научиться полосатый отчет всплыть капитализм.
49. Старшина подписка головной объятие обедать разыскать торговый тачка привет транслит.
50. Личной высказать позор нанять углубление раскол извлекать бархатный пламя пробить.
51. Ветерок исключение причудливый несправедливый поменять сведение применить встречный автобус канава.
52. Родительский ять вязать десятка воспринимать грянуть из-за ученый воспроизводить сосиска.
53. Европейский постареть индеец прелесть обеспечить запад щит помешать числиться возвышенный.
54. Батарея строительство послушный развитой выписывать выдавать придаток пристально никто задумчиво.
55. Всеобщий выпивка пружина обойти приют нарушитель сложно во коллегия ещё.
56. Соединяться обидный брюхо палатка римский лить пожалеть сайт коляска уступать.
57. Титул знание улечься осуществление мент вакцина групповой теряться тумбочка ты.
58. Дополнять дожидаться грудь поручик приблизить славный губернатор заканчивать публично пища.
59. Сурово елка минерал промежуток занять продавщица научить наряд прославить написать.
60. Незачем безнадежно степень восстание багаж замок окрестный ничуть резина мрачный.
61. Меняться пересмотреть привлекать оторваться определять тротуар донести научиться смириться успеть.
62. Закуска вариация разворачиваться шапка разбитый поднимать случаться попросить охрана стричь.
63. Предоставить природный законность надо пользоваться зря преподаватель собачий однозначный ведать.
64. Трамвай вектор пират устойчивый левый сироп мясо отрезать присоединиться вытаскивать.
65. Свет дядя въезд резина усесться свирепый клад выговорить это редкость.
66. Пианино пересечение убеждение побеседовать поведение их род догадка немного сбережение.
67. Вниз приобрести бассейн прочее парадоксальный показываться социалистический плоский учебный исчезновение.
68. Стена взлетать простыня вырвать мерзкий носить разглядывать венок физика начинаться.
69. Напротив запрещать барьер жара пищевой атом натура гепатит характерный подготовка.
70. Евангельский нетерпение именно выбрасывать затянуться рявкнуть военно-морской приблизить реклама осколок.
71. Коленка тревожить припомнить кругом взятка гореть стандартный бдительность узнавать город.
72. Противно коммерческий подземный интеллектуальный облегчить заданный чекист девятнадцатый пена общение.
73. Рубка комсомол куда-то молчать эмпирический взятка блеснуть канава приписать дюжина.
74. Догадываться наткнуться старенький обобщение красиво ненадолго плавный нормальный щелкать выжить.
75. Прежний переводчик толкнуть дурак сократить сформироваться спрос вывеска укрытие баржа.
76. Предусмотреть догонять столица апельсин вешалка кто-то проба расспрашивать сторож и.
77. Понедельник спаситель макет встречать глухо участник здешний употребление расправа спокойно.
78. Зубной количественный строительство мощность объяснить выделить понятный должен массив сам.
79. Танк участие курировать донор заголовок печаль социально-экономический расширять гимнастика железо.
80. Встречать пустыня извлечь щелкать тысяча низ тактика советовать светить гнать.
81. Химический приводиться спиртное шашлык родить калитка разногласие рыть апелляционный монтаж.
82. Вежливость внешне представительный зачем-то забыться шутить уверить символика посидеть доказательство.
83. Относить молекулярный погаснуть покончить идол вплоть странно заходить пиво придать.
84. Генштаб странность укрепить соглашаться вращение газетный эффективный полковник объемный россиянин.
85. Бор последовательный обязывать исходить кинотеатр пасть сжать запястье кожа интегрировать.
86. Произведение улететь взять исполнить беспощадный изменять роман глазок общероссийский весь.
87. Секс направо краснеть ирония человеческий школа зарезать доставка грабить рыночный.
88. Клуб прогулка непосредственно она конструктор потому сокровенный спирт небритый вина.
89. Последователь биться помогать необыкновенный протяжение законодательство накинуть стандарт пошутить посидеть.
90. Химия перенос рассматриваться лак почет лечение спиртное повесить главное удерживать.
91. Прогнать поклясться швырять выплачивать ограничивать списать тренер лишь блокировать обидный.
92. Роковой поплыть приблизиться утешать обеспечение совершенно беречь логика выпуск трус.
93. Договориться предшественник грант развлечение репортаж отель немец влажный плохой крикнуть.
94. Серый всяческий подчеркивать выразиться рваться туда-сюда супруг технологический чек любовник.
95. Представать колхозник охотно диаграмма кучка кабель супруг откровение счастливо ассистент.
96. Запрещаться выбежать крыша библиотека кладбище таков анализ жидкий квартира доверие.
97. Совать похлопать потомство наутро жадно бросок исчезать копаться интересоваться трудность.
98. Устало печать менеджер соблазн процент стабильность заметно заход азарт хитро.
99. Кровля милость жук сентябрь совпадать светский создатель северный полк согласный.
100. Предсказать прислониться брак руда имперский подействовать подражать связываться изучить краснодарский.
Фишка в том, что нужно еще соблюдать синтаксис. Ну есть же языки без особого синтаксиса, наверно? В принципе, в русском языке слова тоже могут иметь произвольный порядок, регулируем окончаниями.
Сколько %% из этих 20 можно задействовать для дальнейшего построения текста со смыслом? Пусть с учетом того что в них не правильные окончания, пусть даже так.
Хоть одно найдете, где бы можно было изменить окончания/добавить частицы и получить некое предложение со смыслом?
Потом как определить вероятность того, что 2 предложения сочетаются по смыслу и дополняют друг-друга, образуют единый текст?
Здравствуйте, Shmj, Вы писали:
S>Как вычислить хотя бы примерное значение из них, которые имеют смысл или хотя бы возможно не бессмысленны?
В Яндексе должны знать, их робот вот такие тексты легко генерит:
Позитивизм диссонирует максимум по мере распространения сигнала в среде с инверсной населенностью. Шиллер утверждал: прямоугольная матрица представляет собой драматизм, как и предполагалось. Квантовое состояние реально аккумулирует бессознательный кристалл, однако Зигварт считал критерием истинности необходимость и общезначимость, для которых нет никакой опоры в объективном мире. Среда притягивает бозе-конденсат. Геометрическая прогрессия, по определению, трансформирует циркулирующий критерий интегрируемости, что лишний раз подтверждает правоту Эйнштейна.
Берем много осмысленных текстов и смотрим на статистику распределения с учетом контекста (N последних слов) :
Для каждого слова W какова его вероятность появления после слова A?
Для каждого слова W какова его вероятность появления после пары слов A B?
Для каждого слова W какова его вероятность появления после тройки слов A B С?
и так далее, получим статистическую модель.
Чем длиннее контекст, тем больше в таблице будет нулей. Ну а дальше уже простой тервер, зная распределение реально встречающихся сочетаний, посчитать отношение правдоподобно выглядящих цепочек к общему количеству возможных. Это то, чем генератор выше занимается — генерит такие цепочки. Согласовать их по падежам — уже простое дело техники.
Re[3]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Здравствуйте, Qulac, Вы писали:
Q>>Если генерировать предложения по определённой структуре, например: "прилагательно, существительное, глагол и т.д", то покрайней мере часто смешно получается.
S>Попробуйте так осмысленный текст сгенерить. Хотя бы чтобы 2-3 предложения получилось.
Искал генератор случайных слов, нашёл вот это: Генератор слов. Вот что он мне выдал про кывт:
Здравствуйте, Shmj, Вы писали:
DM>>1) Восемью восемь — сто.
S>Может обрести смысл только в контексте (как пример неверного вывода и пр.). Тогда рассматриваем вариант случайного возниновения такого контекста.
В восьмеричной системе 8*8=100.
Все верно, оценка того, есть во фразе или тексте смысл или нет, полностью зависит от контекста в голове читающего. Сами по себе слова ничего не значат и никакого смысла не имеют, только в контексте. Поэтому без формализации и фиксации какого-то контекста невозможно дать никакой ответ на такую задачу.
Отдельный вопрос — считать ли ахинеей ложные высказывания. Я в том списке специально местами внес искажения, так что фраза может и выглядит осмысленной, но на деле ахинея.
Re: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Хоть одно найдете, где бы можно было изменить окончания/добавить частицы и получить некое предложение со смыслом?
Ваш пример показывает полную бесперспективность подхода. Вы пытаетесь построить полное предложение за один шаг. Так у вас не хватит никаких вычислительных мощностей.
Правильный вариант — такой:
1. Начинаем с предложений из двух слов. Их всего 10^8.
2. Выбираем из них 10000 наиболее осмысленных.
3. Начинаем комбинировать предложения, случайно выбирая комбинации вроде склейки, вставки в середину, и выбрасывания слова. У нас опять получается примерно 10^8 вариантов.
4. Выбираем из них 10000 наиболее осмысленных.
5. На каждом шаге средняя длина предложения у нас будет прирастать на полтора слова. Всего за 6 шагов, по 10^8 вариантов на каждом, мы получаем осмысленные предложения длиной в 10 слов и более.
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[5]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали: S>Если 30 Мб, то получается 10^9030899 вариантов. Даже если вариантов со смыслом триллион триллионов, то остается минимум 10^9030800 вариантов перебора разных мутаций нужно было сделать. За пределами возможностей способностей нашей Вселенной. Вселенная даже 100 байт хеша перебрать не в силах.
Нет, не нужно. Вам уже десять человек пятьдесят раз объяснили, как на самом деле работает построение генокода. Это не подбор пароля — это линейный, а не экспоненциальный процесс.
Биологи, посмотрев на геномы двух организма, могут неплохо оценить, насколько давно у них был общий предок.
Потому что скорость внесения изменений (количество бит в единицу времени) примерно постоянна.
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Здравствуйте, Shmj, Вы писали:
>Сколько процентов всех возможных текстов имеют смысл?
Вопрос сродни моделированию у Лема ("выращивание информации"): у нас есть газ в объеме, в котором хаотически летает N молекул которые на какое-то время выстраивают двоичные конфигурации содержащие: стихи лучше Шекспировских, формулы лучше Эйнштейновских и пр. и пр. И показывается, что ввиду отсутствия фильтра, вылавливающего эти самые стихи и формулы из триллионов неинформативных конфигурвций, этот способ безнадежен.
Вот, например, текст больного шизофазией с лурка:
Родился на улице Герцена. В гастрономе № 22. Известный экономист. По призванию своему библиотекарь. В народе — колхозник. В магазине — продавец. В экономике, так сказать, необходим. Это, так сказать, система… эээ… в составе 120 единиц. Фотографируйте Мурманский полуостров — и получаете te-le-fun-ken. И бухгалтер работает по другой линии. По линии «Библиотека». Потому что не воздух будет, а академик будет! Ну вот можно сфотографировать Мурманский полуостров. Можно стать воздушным асом. Можно стать воздушной планетой. И будешь уверен, что эту планету примут по учебнику. Значит, на пользу физики пойдет одна планета.
Очевидно, каждое предложение имеет смысл... Или не имеет? Потому как при шизофазии — структура речи формально не нарушена, грамматических ошибок нет, но предложения не несут никакого смысла.
Возникает вопрос — учитывать ли предложения выше как осмысленные или нет?
Опять-таки. Если у нас 10 слов в предложении, а членов предложения грубо говоря 3: подлежащее(существительное, местоимение), сказуемое(глагол), дополнение (существительное прилагательное местоимение предлог) то есть совершенно точные формулы количества сочетаний C(m,n) которые можно составить из 10 000 слов. И все они будут осмысленными, но вряд ли юудут нести какую-то информацию:
"Он срал мимо Млечного Пути"
"Она родилась на улице Цветочной"
"Оно было"
В каком-то контекстсе все эти фразу быдыт осмысленными, а в каких-то нет. Но порождены-то они по одному шаблону! Так считать их или нет?
Re: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Здесь для русского языка, но полагаю что это общая тенденция для всех возможных языков, типа закона Ципфа.
S>Возьмем только 10 тыс. самых популярных слов. Скорее всего худо-бедно ими можно выразить любой смысл (чего нет заменять на "штуковина", "фиговина" и пр.).
S>Получается всего вариантов предложений 10^40.
S>Как вычислить хотя бы примерное значение из них, которые имеют смысл или хотя бы возможно не бессмысленны?
Если ты опять про эволюцию, то ты опять взял негодную модель.
Известен такой факт. Яркий солнечный свет ломает ДНК бактерий.
Так вот они берут обрывки ДНК из окружающей среды и встраивают их в свой геном.
Из чего можно сделать вывод, что на языке ДНК любое сочетание имеет смысл.
Течёт вода Кубань-реки куда велят большевики.
Re[2]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Вариант "возможно имеют смысл" (верить можно, но проверить нельзя). Такие варианты я бы выделил в особую группу "возможно имеют смысл", их мало.
Вот тут сомневаюсь. Мне кажется, если взять простую фразу, имеющую смысл (для юзера Shmj, например), то путем простой замены одного или пары слов из нее можно получить похожую фразу, которая тут же попадет в класс "возможно имеют смысл". Т.е. на одну осмысленную придутся сотни "возможно осмысленных".
Re[8]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, D. Mon, Вы писали:
S>> Вообще речь о случайном возникновении какого-либо текста, включая контекст. Т.е. такой текст, смысл которого вы поймете однозначно.
DM>Это можно лишь оценить для конкретного получателя/читателя, т.к. оценка осмысленности зависит от, фактически, всего жизненного опыта читателя.
Ваша ошибка в том, что вы считаете читателя статичным, не способным к поиску и изучению новой информации.
Вы как бы рассматриваете его как некий алгоритм, программу. Забывая что сознание по своей природе отлично от алгоритма.
DM>Вот посадить Shmj и заставить оценить осмысленность миллиарда текстов, тогда получим число.
Посадить любое сознание, заинтересованное в нахождении смысла -- и получим примерно одинаковое число. Да, будет некий процент ошибок, сознание так устроено. При более тщательном изучени ошибки можно уменьшить.
DM>А текст сам по себе, без оглядки на получателя, смысл не содержит. Обычно мы предполагаем, что автор текста вложил в него смысл, т.к. текст имеет смысл хотя бы для автора. А при случайной генерации этой предпосылки уже нет, остается лишь сам текст. Т.е. это всегда функция вида ЕстьСмысл(Текст, Получатель).
Нет. Важно лишь чтобы оценку проводило адекватное и более менее здоровое сознание. Сразу можно сказать когда смысла точно нет. Спорными являются не завершенные, вырванные из контекста фразы и предложения.
Даже если текст сейчас не ясен -- можно углубиться, изучить и сделать однозначный вывод.
Думаю что из базы слов для случайной генерации стоит исключить сложные термины, чтобы упростить время на осознание.
DM>Без второго аргумента не работает.
Ошибка непонимания природы сознания.
DM>Вон киты песни поют и общаются друг с другом — как понять, какие их "тексты" имеют смысл, а какие — просто флатуленция?
На изучение языка требуется время. Это возможно, но займет несколько лет.
По этому я предлагаю оценивать тот язык, который человек уже знает. Просто для сокращения времени на осознание.
Re[6]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Здравствуйте, Sinclair, Вы писали:
S>>Правильный вариант — такой: S>>1. Начинаем с предложений из двух слов. Их всего 10^8.
S>Так.
S>>2. Выбираем из них 10000 наиболее осмысленных.
S>Почему именно 10000? Это же всего 0.01% Комбинация из двух слов почти всегда может быть частью осмысленного текста, за редким исключением.
Потому что так работает эволюция. Размер популяции ограничен. Все недостаточно хорошие уходят, даже если они и не совсем плохие. S>>3. Начинаем комбинировать предложения, случайно выбирая комбинации вроде склейки, вставки в середину, и выбрасывания слова. У нас опять получается примерно 10^8 вариантов. S>>4. Выбираем из них 10000 наиболее осмысленных. S>>5. На каждом шаге средняя длина предложения у нас будет прирастать на полтора слова. Всего за 6 шагов, по 10^8 вариантов на каждом, мы получаем осмысленные предложения длиной в 10 слов и более.
S>А где гарантия что ваших 10^8 предложений, которые вы получили в конце, хватит для комбинации в осмысленный текст книги?
Не понимаю вот этого перехода. Я вам показал, как за 6 шагов (а не за квинтиллионы, как у вас) получается осмысленное предложение в 10 слов.
За 60 шагов мы таким образом получим десяток предложений. И далее всё продолжается линейно, экспоненциального взрыва нет.
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[2]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, D. Mon, Вы писали:
DM>Для каждого слова W какова его вероятность появления после слова A? DM>Для каждого слова W какова его вероятность появления после пары слов A B?
Сеть Маркова?
Re: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Как вычислить хотя бы примерное значение из них, которые имеют смысл или хотя бы возможно не бессмысленны?
S>Принимаются идеи.
В качестве иллюстрации:
(visual created by the Google Dream neural network)
Возьмем три слова, скажем: она, водка, любить.
Никакое их сочетание не генерирует осмысленных фраз — грамматика не позволяет.
Т.е. из всего множества можно отсечь все что грамматически и синтаксически некорректно.
Т.к. набор правил известен и можно сказать формализован — задача вычисляема. Т.е. можно получить верхнюю оценку того что в принципе имеет смысл.
Рискну утверждать что любая грамматически построенная фраза имеет смысл. От поэтического до бытового.
Например "она любит водку" и "водка любит её".
Вторую можно отсечь правилом "неодушевленное любить не может" но поэтам закон не писан.
Очевидно что смысл это нечеткая оценка. Т.е. подходить к данной задаче имеет смысл с позиций логики возможностей (fuzzy sets / logic )
Здравствуйте, Shmj, Вы писали:
S>Давайте вы будете случайные слова генерить а я вам говорить есть смысл или нет. И сколько нужно попыток, чтобы написать осмысленный текст? https://yandex.ru/referats/?t=physics
Re: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Сколько %% из этих 20 можно задействовать для дальнейшего построения текста со смыслом? Пусть с учетом того что в них не правильные окончания, пусть даже так. S>Хоть одно найдете, где бы можно было изменить окончания/добавить частицы и получить некое предложение со смыслом? S>Потом как определить вероятность того, что 2 предложения сочетаются по смыслу и дополняют друг-друга, образуют единый текст? S>Изучал ли кто-нибудь этот вопрос?
А это зачем-то нужно кроме праздного любопытства?
Re[2]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, vmpire, Вы писали:
V>А это зачем-то нужно кроме праздного любопытства?
А доказательство теоремы Пуанкаре зачем-то нужно, кроме праздного любопытства?
Вообще в мире ничего не нужно. Жить можно и без электричества и без интернета и без радио. 100 тыс. лет люди так жили и еще бы 100 тыс. прожили, а вот наука скорее подвергает жизнь опасности, так как приводит к загрязнению воды и воздуха.
Все делается исключительно ради праздного любопытства. Причем свиду не интересная вещь может привести к очень интересным выводам.
Re[2]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, D. Mon, Вы писали:
DM>В Яндексе должны знать, их робот вот такие тексты легко генерит: DM>
Позитивизм диссонирует максимум по мере распространения сигнала в среде с инверсной населенностью. Шиллер утверждал: прямоугольная матрица представляет собой драматизм, как и предполагалось. Квантовое состояние реально аккумулирует бессознательный кристалл, однако Зигварт считал критерием истинности необходимость и общезначимость, для которых нет никакой опоры в объективном мире. Среда притягивает бозе-конденсат. Геометрическая прогрессия, по определению, трансформирует циркулирующий критерий интегрируемости, что лишний раз подтверждает правоту Эйнштейна.
Это всего лишь синтаксически правильные тексты, скорее всего даже основаны на результатах уже существующих текстов. Смыла в них нет -- это ахинея!
DM>Чем длиннее контекст, тем больше в таблице будет нулей. Ну а дальше уже простой тервер, зная распределение реально встречающихся сочетаний, посчитать отношение правдоподобно выглядящих цепочек к общему количеству возможных.
Здесь ваша ключевая ошибка. Нужно не правдоподобно выглядящие а имеющие или возможно имеющие смысл. Ахинею следует отсеивать, даже если сказана синтаксически правильно.
DM>Это то, чем генератор выше занимается — генерит такие цепочки. Согласовать их по падежам — уже простое дело техники.
А как отфильтровать ахинею? Пока только методом сознательного анализа.
Re[2]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, alpha21264, Вы писали:
A>Так вот они берут обрывки ДНК из окружающей среды и встраивают их в свой геном. A>Из чего можно сделать вывод, что на языке ДНК любое сочетание имеет смысл.
Не любое, просто там много мусора. И мусор можно легко отличить от кодирующей части.
Re[3]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Здравствуйте, alpha21264, Вы писали:
A>>Так вот они берут обрывки ДНК из окружающей среды и встраивают их в свой геном. A>>Из чего можно сделать вывод, что на языке ДНК любое сочетание имеет смысл.
S>Не любое, просто там много мусора. И мусор можно легко отличить от кодирующей части.
1) Ну ты понимаешь, как наличие мусора влияет на твои оценки?
Если от гигабайта человеческого генома остаётся 30 мегабайт
полезного кода (как сказал коллега Cyberax),
cколько нулей тебе придётся отбросить в показателе степени?
2) Горизонтальный перенос генов таки есть.
И в природе и в геннетических экспериментах учёных.
Внедрение генов рыбы в банан сейчас никого не удивляет.
Течёт вода Кубань-реки куда велят большевики.
Re[4]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, alpha21264, Вы писали:
A>1) Ну ты понимаешь, как наличие мусора влияет на твои оценки? A>Если от гигабайта человеческого генома остаётся 30 мегабайт A>полезного кода (как сказал коллега Cyberax), A>cколько нулей тебе придётся отбросить в показателе степени?
Я брал 100 Мб. Сомневаюсь на счет 30, таких оценок нигде не находил, разберемся с ним, если он отвечает за слова.
Если 30 Мб, то получается 10^9030899 вариантов. Даже если вариантов со смыслом триллион триллионов, то остается минимум 10^9030800 вариантов перебора разных мутаций нужно было сделать. За пределами возможностей способностей нашей Вселенной. Вселенная даже 100 байт хеша перебрать не в силах.
A>2) Горизонтальный перенос генов таки есть. A>И в природе и в геннетических экспериментах учёных. A>Внедрение генов рыбы в банан сейчас никого не удивляет.
Меня интересуют числовые данные.
Re[3]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Нужно не правдоподобно выглядящие а имеющие или возможно имеющие смысл. Ахинею следует отсеивать, даже если сказана синтаксически правильно.
Это нерешаемая задача тогда. Для кого-то один набор слов имеет смысл, а для кого-то выглядит ахинеей.
Попробуй определить, где ахинея, а где осмысленные фразы тут:
1) Восемью восемь — сто.
2) Бог есть любовь.
3) В модуле над кольцом без деления обязательно существует базис.
4) В модуле над кольцом без деления не обязательно существует базис.
5) В кольце деления по модулю есть делители нуля.
6) Фаза дзогрим следует за къедрим и является прямым аналогом випашьяны, следующей за шаматхой.
7) Йогачарья мадхъямака сватантрика в изложении Шантаракшиты имеет ряд преимуществ перед прасангикой Нагарджуны.
8) Вселенная пахнет нефтью.
9) Банан большой, а кожура еще больше.
10) Для любого локально тривиального расслоения pi : X -> B и непрерывного отображения f : B -> B' индуцированное расслоение f*(pi) является локально тривиальным.
Здравствуйте, D. Mon, Вы писали:
DM>Это нерешаемая задача тогда. Для кого-то один набор слов имеет смысл, а для кого-то выглядит ахинеей.
Иногда нельзя точно определить есть смысл в тексте или нет. Но таких случаев сравнительно мало. Для упрощения предлагаю эти варианты вынести в отдельную группу "возможно имеющие смысл".
Есть тексты, которые могут обрести смысл только в контексте чего-либо. Тогда интересна оценка вероятности случайного возникновения данного контекста.
DM>Попробуй определить, где ахинея, а где осмысленные фразы тут:
DM>1) Восемью восемь — сто.
Может обрести смысл только в контексте (как пример неверного вывода и пр.). Тогда рассматриваем вариант случайного возниновения такого контекста.
DM>2) Бог есть любовь.
Вариант "возможно имеют смысл" (верить можно, но проверить нельзя). Такие варианты я бы выделил в особую группу "возможно имеют смысл", их мало.
DM>3) В модуле над кольцом без деления обязательно существует базис. DM>4) В модуле над кольцом без деления не обязательно существует базис. DM>5) В кольце деления по модулю есть делители нуля.
В научных утверждениях если одно не верно, то может быть применено только в контексте неверного вывода и пр.
Мне сложно сказать, скорее бы отнес к тем которые "возможно имеют смысл" и "обретают смысл в контексте" (точнее скажет тот кто в этой теме работает).
Здесь интересен вопрос случайного возникновения второго и пр. предложений, которое продолжит мысль и в результате добавления которого не получится ахинея.
DM>6) Фаза дзогрим следует за къедрим и является прямым аналогом випашьяны, следующей за шаматхой. DM>7) Йогачарья мадхъямака сватантрика в изложении Шантаракшиты имеет ряд преимуществ перед прасангикой Нагарджуны.
Здесь у вас узкоспециализированные религиозные термины. У этих терминов очень точный смысл.
Если даже вы написали в точности с буддистскими взглядами -- все равно относим к "возможно имещие смысл". Ведь их теория еще не проверена и может оказаться ошибочной.
Если же вы намеренно исказили термины (я терминов их не знаю) -- то не имеет смысла.
DM>8) Вселенная пахнет нефтью.
См. 1
DM>9) Банан большой, а кожура еще больше.
В принципе смысл есть, но требуется уточняющий контекс.
DM>10) Для любого локально тривиального расслоения pi : X -> B и непрерывного отображения f : B -> B' индуцированное расслоение f*(pi) является локально тривиальным.
См. 3, 4, 5
Вы намеренно подобрали сложные примеры. Для быстрой оценки я бы их сразу определял в группу #3 -- возможно имеют смысл. Их не так много.
Сейчас мы рассмотрели только на уровне предложений. А ведь предложения соединяются в осмысленный текс и вероятность что случайно возникнет второе предложение, раскрывающее/уточняющее мысль первого -- еще меньше.
Мне интересно будет ли экспоненциальное нарастание сложности или нет?
S>Для примера, берем 20 случайных наборов по 10 слов:
S>
S>Неважно дивный трусы дико пусть смириться вынимать концерт почка требоваться.
S>Мыслитель отличный пыльный двигатель фондовый распределить агент обучить правительство душить.
S>Качать порция настроение засунуть спастись спорт дуть ведущий тщательный производитель.
S>Повестка преобладать сгореть хлебный убрать данные пересечение алюминиевый много страшно.
S>Экспертиза сознательно небо полевой блистательный сократить заблуждение семейство заведение перемещение.
S>Воспитать контекст чудак поскольку часовой совершенно ну-ка запретный май отделение.
S>Аппарат рвать защитник отвернуться выбрасывать нога притихнуть презентация добродетель виновный.
S>Запускать проем догадываться клин аромат учредительный пропасть заключительный пятеро высказывание.
S>Незадолго таблица доминировать просто поселение обязанность идиотский дурацкий быстрый крест.
S>Сбоку сыщик драться гипотеза от разбежаться напоминать снятие датчик очертить.
S>Вознаграждение мельком эй романтический экскурсия спускать сей спровоцировать обрыв афиша.
S>Напрямую запечатлеть дождь притча телега усмотрение спрятаться чей-то выбежать погодить.
S>Вечный украинский усилить преобладать подъем сжигать обсуждение дворянин усмехаться знакомиться.
S>Журналистика всесоюзный обыкновение по-человечески фашизм лениво экспортный крохотный констатировать открытость.
S>Золотой манер раздраженно сорт розыск беспомощный наказывать развалиться завтракать именно.
S>Неведомый расстроиться ранний стеклянный утверждаться мышка спутник штора автобус вяло.
S>Опять-таки кошка территория связать редакционный славянин закрепление вселенная пара прикрепить.
S>Непременно продолжать беспощадный красить юбилей непосредственно удачно стадия внутренний низко.
S>Вирус классик питательный быстренько октябрь плечо тревожно возврат забыть заплакать.
S>Браться один глупость преувеличение столичный ипотечный хищник котлета жидкий бритва.
S>Порок глина злиться сотрудник автоматизированный бюро итог подпись неуловимый обезьяна.
Если генерировать предложения по определённой структуре, например: "прилагательно, существительное, глагол и т.д", то покрайней мере часто смешно получается.
Здравствуйте, Qulac, Вы писали:
Q>Если генерировать предложения по определённой структуре, например: "прилагательно, существительное, глагол и т.д", то покрайней мере часто смешно получается.
Попробуйте так осмысленный текст сгенерить. Хотя бы чтобы 2-3 предложения получилось.
Re[4]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Qulac, Вы писали:
Q>Вот что он мне выдал про кывт:
Не факт что тексты абсолютно случайные.
Q>Судя по всему, проблема решаемая. Q>
Я не говорю что не решаемая. Среди случайных предложений всегда будут имещие смысл. Вопрос лишь в их количестве.
Второй вопрос -- генерация согласованных друг с другом предложений, т.е. вероятность что 2 предложения совпадут по смыслу и не будут противоречить друг другу.
Re[6]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, D. Mon, Вы писали:
DM>В восьмеричной системе 8*8=100. DM>Все верно, оценка того, есть во фразе или тексте смысл или нет, полностью зависит от контекста в голове читающего. Сами по себе слова ничего не значат и никакого смысла не имеют, только в контексте. Поэтому без формализации и фиксации какого-то контекста невозможно дать никакой ответ на такую задачу.
Верно. Вообще речь о случайном возникновении какого-либо текста, включая контекст. Т.е. такой текст, смысл которого вы поймете однозначно.
Конечно, когда 1 фраза или даже 1 предложение -- очень редко можно однозначно понять смысл.
И, думаю, оценку нужно начать с вероятности случайного возникновения предложения, которое потенциально может быть задействовано в создании такого контекста. Ведь многие предложения сразу можно исключить.
DM>Отдельный вопрос — считать ли ахинеей ложные высказывания. Я в том списке специально местами внес искажения, так что фраза может и выглядит осмысленной, но на деле ахинея.
Ложные могут иметь смысл только в контексте ошибочных выводов и подобного.
Главный вопрос такой: если мы будем составлять текст из случайных предложений, будет ли экспоненциальный рост сложности генерации каждого нового предложения? К примеру, первое предложение можно выбрать из 10^38 вариантов. Второе только из 5^38, третье только из 2^38 и т.д.
Re[6]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, D. Mon, Вы писали:
DM>Вот тут сомневаюсь. Мне кажется, если взять простую фразу, имеющую смысл (для юзера Shmj, например), то путем простой замены одного или пары слов из нее можно получить похожую фразу, которая тут же попадет в класс "возможно имеют смысл". Т.е. на одну осмысленную придутся сотни "возможно осмысленных".
Нужно вычислять. Однако если взять 2-3 таких предложения, "возможно имеющих смысл" и попытаться соединить -- сразу будет видно что текст лишен смысла.
1. Сначала узнаем сколько предложений из 1000 имеют смысл, сколько "возможно имеют" и сколько не имеют.
2. Потом узнаем сколько комбинаций из 2 предложений обладают данными свойствами.
3. Увеличиваем до 3 предложений.
Чем больше предложений, тем меньше шансов остается получить согласованный текст со смыслом или даже с возможным смыслом. Есть возражения?
Понятно что точности здесь быть не может, но хотя бы примерные оценки, думаю, возможны.
Re[7]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S> Вообще речь о случайном возникновении какого-либо текста, включая контекст. Т.е. такой текст, смысл которого вы поймете однозначно.
Это можно лишь оценить для конкретного получателя/читателя, т.к. оценка осмысленности зависит от, фактически, всего жизненного опыта читателя. Вот посадить Shmj и заставить оценить осмысленность миллиарда текстов, тогда получим число. А текст сам по себе, без оглядки на получателя, смысл не содержит. Обычно мы предполагаем, что автор текста вложил в него смысл, т.к. текст имеет смысл хотя бы для автора. А при случайной генерации этой предпосылки уже нет, остается лишь сам текст. Т.е. это всегда функция вида ЕстьСмысл(Текст, Получатель). Без второго аргумента не работает. Вон киты песни поют и общаются друг с другом — как понять, какие их "тексты" имеют смысл, а какие — просто флатуленция?
Re[3]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
V>>А это зачем-то нужно кроме праздного любопытства?
S>А доказательство теоремы Пуанкаре зачем-то нужно, кроме праздного любопытства? S>Вообще в мире ничего не нужно. Жить можно и без электричества и без интернета и без радио. 100 тыс. лет люди так жили и еще бы 100 тыс. прожили, а вот наука скорее подвергает жизнь опасности, так как приводит к загрязнению воды и воздуха. S>Все делается исключительно ради праздного любопытства. Причем свиду не интересная вещь может привести к очень интересным выводам.
Судя по эмоциональности ответа, ответ на мой вопрос: "не нужно и понятия не имею зачем может пригодится".
В противном случае ответ был бы простой: "на сегодняшний момент — нет"
Вообще — нормальный вопрос, зачем так кипятиться? Если это попытка решения реальной задачи, то, возможно, можно было бы обсудить другие подходы к её решению.
Re[9]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
DM>>А текст сам по себе, без оглядки на получателя, смысл не содержит. Обычно мы предполагаем, что автор текста вложил в него смысл, т.к. текст имеет смысл хотя бы для автора. А при случайной генерации этой предпосылки уже нет, остается лишь сам текст. Т.е. это всегда функция вида ЕстьСмысл(Текст, Получатель).
S>Нет. Важно лишь чтобы оценку проводило адекватное и более менее здоровое сознание. Сразу можно сказать когда смысла точно нет. Спорными являются не завершенные, вырванные из контекста фразы и предложения. S>Даже если текст сейчас не ясен -- можно углубиться, изучить и сделать однозначный вывод.
В случае человеческих текстов можно спросить у автора, что именно он имел в виду, т.е. пополнить свой контекст и понять текст.
А если автор недоступен, а есть только текст? (с генератором же именно так) Вот манускрипт Войнича — осмысленный текст или нет? Никто не знает до сих пор.
Или, скажем, 10 лет назад попался бы "здоровому сознанию" написанный генератором текст
цель работы в «разработке арифметической версии теории Тейхмюллера для цифровых полей ограниченных эллиптической кривой… с помощью применения теории полуграфов анабелиоидов, фробениоидов, эталь тета-функций и логарифмических оболочек».
без объяснения использованных понятий. Как тут в принципе можно решить, имеет ли он смысл? Без доступа к автору?
Какое-то объяснение этих вещей появилось 5 лет назад в работах Синъити Мотидзуки, но разобраться в них пока никому практически не получилось. А 10 лет назад тех работ еще не было, а текст такой мог бы быть получен генератором. И как, имеет он смысл или нет?
А если мы сгенерируем другой текст, который сейчас выглядит ахинеей, а через 50 лет окажется осмысленным в рамках какой-то новой теории?
DM>>Вон киты песни поют и общаются друг с другом — как понять, какие их "тексты" имеют смысл, а какие — просто флатуленция?
S>На изучение языка требуется время. Это возможно, но займет несколько лет.
А вот хрен. Языком китов и дельфинов уже давно занимаются, все никак не могут расшифровать. Без налаженного канала коммуникации с автором текста, понять его осмысленность не выходит.
Re[4]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, vmpire, Вы писали:
V>Вообще — нормальный вопрос, зачем так кипятиться? Если это попытка решения реальной задачи, то, возможно, можно было бы обсудить другие подходы к её решению.
Есть предположение что для всех существующих языков (как естественных так и искусственных) количество осмысенных текство примерно одинаковое. Хотелось бы проверить это предположение, пока начать с одного языка.
Если предположение подтвердится, то последуют весьма интересные выводы.
Re[10]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, D. Mon, Вы писали:
DM>В случае человеческих текстов можно спросить у автора, что именно он имел в виду, т.е. пополнить свой контекст и понять текст.
Это не нужно, чтобы понять имеет смысл текст или нет. Разве что если автор психически не полноценен.
DM>А если автор недоступен, а есть только текст? (с генератором же именно так) Вот манускрипт Войнича — осмысленный текст или нет? Никто не знает до сих пор.
Ваша ошибка в том, что вы делаете выводы из текущей ситуации. Считаете что ситуация конечна.
Для расшифровки некоторых задач сознанием требуеются годы а иногда сотни лет. При этом задача может быть не столь актуальной.
Вполне возможно что манускрипт расшифруют. Что вы тогда скажете?
DM>Или, скажем, 10 лет назад попался бы "здоровому сознанию" написанный генератором текст DM>
цель работы в «разработке арифметической версии теории Тейхмюллера для цифровых полей ограниченных эллиптической кривой… с помощью применения теории полуграфов анабелиоидов, фробениоидов, эталь тета-функций и логарифмических оболочек».
DM>без объяснения использованных понятий. Как тут в принципе можно решить, имеет ли он смысл? Без доступа к автору?
Научные термины исключить из словаря для генерации для упрощения. Почти все такие тексты можно отнести к "возможно имеющий смысл". И для уточнения его группы потребуется очень много времени.
По этому в словарь добавить только самые простые слова. В принципе ими можно выразить любую мысль.
Если вы добавите в словарь сложные термины -- ничего принципиально не изменится, вероятность случайного возникновения осмысленного текста не увеличится и не уменьшится значительно. Вы лишь усложните задачку классификации.
DM>Какое-то объяснение этих вещей появилось 5 лет назад в работах Синъити Мотидзуки, но разобраться в них пока никому практически не получилось. А 10 лет назад тех работ еще не было, а текст такой мог бы быть получен генератором. И как, имеет он смысл или нет?
Да, некоторые вещи требуют годы для осознания. Именно по этому нужно максимально упростить задачу -- использовать не большой словарь без спец. терминов. Или вы думаете что если добавите термины -- то что-то принципиально изменится?
DM>А если мы сгенерируем другой текст, который сейчас выглядит ахинеей, а через 50 лет окажется осмысленным в рамках какой-то новой теории?
Он не будет выглядеть ахинеей. Он будет классифицирован как "возможно имеющий смысл".
Классификация текста с точными научными терминами занимает много времени. По этому от терминов в словаре я и отказался.
DM>А вот хрен. Языком китов и дельфинов уже давно занимаются, все никак не могут расшифровать. Без налаженного канала коммуникации с автором текста, понять его осмысленность не выходит.
И что? Вы утверждаете что никогда не смогут? Смогут, нужно время.
Re[7]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Sinclair, Вы писали:
S>Правильный вариант — такой: S>1. Начинаем с предложений из двух слов. Их всего 10^8.
Так.
S>2. Выбираем из них 10000 наиболее осмысленных.
Почему именно 10000? Это же всего 0.01% Комбинация из двух слов почти всегда может быть частью осмысленного текста, за редким исключением.
S>3. Начинаем комбинировать предложения, случайно выбирая комбинации вроде склейки, вставки в середину, и выбрасывания слова. У нас опять получается примерно 10^8 вариантов. S>4. Выбираем из них 10000 наиболее осмысленных. S>5. На каждом шаге средняя длина предложения у нас будет прирастать на полтора слова. Всего за 6 шагов, по 10^8 вариантов на каждом, мы получаем осмысленные предложения длиной в 10 слов и более.
А где гарантия что ваших 10^8 предложений, которые вы получили в конце, хватит для комбинации в осмысленный текст книги?
Здравствуйте, Wolverrum, Вы писали:
W>Очевидно, каждое предложение имеет смысл... Или не имеет? Потому как при шизофазии — структура речи формально не нарушена, грамматических ошибок нет, но предложения не несут никакого смысла.
Предложение имеет, а вот текст нет.
Нужно еще правильно сочитать предложения.
W>Возникает вопрос — учитывать ли предложения выше как осмысленные или нет?
Текст целиком -- нет.
W>Опять-таки. Если у нас 10 слов в предложении, а членов предложения грубо говоря 3: подлежащее(существительное, местоимение), сказуемое(глагол), дополнение (существительное прилагательное местоимение предлог) то есть совершенно точные формулы количества сочетаний C(m,n) которые можно составить из 10 000 слов. И все они будут осмысленными, но вряд ли юудут нести какую-то информацию:
W>"Он срал мимо Млечного Пути" W>"Она родилась на улице Цветочной" W>"Оно было"
Вообще конечный итог вычислений -- количество не осмысленных предложений а осмысленных текстов размером, скажем, болеее 100 тыс. слов. Предложения должны сочитаться.
W>В каком-то контекстсе все эти фразу быдыт осмысленными, а в каких-то нет. Но порождены-то они по одному шаблону! Так считать их или нет?
Как предложение -- считать осмысленным. Далее считать вероятность собрать осмысленный текст.
Re[4]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Sinclair, Вы писали:
S>>Почему именно 10000? Это же всего 0.01% Комбинация из двух слов почти всегда может быть частью осмысленного текста, за редким исключением. S>Потому что так работает эволюция. Размер популяции ограничен. Все недостаточно хорошие уходят, даже если они и не совсем плохие.
Вопрос про конкретные 10 тыс. Почему не 1 млн. из 100 млн. вариантов вы взяли?
S>>А где гарантия что ваших 10^8 предложений, которые вы получили в конце, хватит для комбинации в осмысленный текст книги? S>Не понимаю вот этого перехода. Я вам показал, как за 6 шагов (а не за квинтиллионы, как у вас) получается осмысленное предложение в 10 слов. S>За 60 шагов мы таким образом получим десяток предложений. И далее всё продолжается линейно, экспоненциального взрыва нет.
Смотрите в чем ошибка. Вы взяли 10 тыс. вариантов. Взяли с потолка, признайтесь честно. Не разобрались.
Что если взять не 10 тыс. а 1 тыс.? Что-то принципиально изменится? А если не 1 тыс. а 100? Где граница, после которой предложенная схема отбора перестанет работать?
Если вы начнете не с потолка брать цифры а попытаетесь их вычислить (хотя бы с применением эмирических методов), то увидите что для такого перебора нужно оставлять не 0.01% а практически все (ближе к 90%) полученные комбинации. В таком же случае получается слишком много вариантов для перебора.
Здравствуйте, Shmj, Вы писали:
S>Предложение имеет, а вот текст нет.
Почему нет? Для кого-то (для автора?) он может выстраивать вполне осмысленную цепочку образов. Примерно как картины некоторых художников, кто-то их признает шедеврами, а на мой взгляд — бессмысленное дерьмо.
Переубедить Вас, к сожалению, мне не удастся, поэтому сразу перейду к оскорблениям.
Re[6]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Sinclair, Вы писали:
S>Здравствуйте, Shmj, Вы писали: S>>Если 30 Мб, то получается 10^9030899 вариантов. Даже если вариантов со смыслом триллион триллионов, то остается минимум 10^9030800 вариантов перебора разных мутаций нужно было сделать. За пределами возможностей способностей нашей Вселенной. Вселенная даже 100 байт хеша перебрать не в силах. S>Нет, не нужно. Вам уже десять человек пятьдесят раз объяснили, как на самом деле работает построение генокода. Это не подбор пароля — это линейный, а не экспоненциальный процесс. S>Биологи, посмотрев на геномы двух организма, могут неплохо оценить, насколько давно у них был общий предок. S>Потому что скорость внесения изменений (количество бит в единицу времени) примерно постоянна.
Можно и пароль в качестве аналога привести. Но это такой пароль, при подаче которого есть уязвимость по первым правильным символам.
PS. А вообще, чувак, конечно упорный. Нет бы сразу сказать, что креационизм это его всё, а в эволюцию он "НЕ ВЕРИТ". Так нет же, столько обходных путей искать.
Здравствуйте, D. Mon, Вы писали:
DM>9) Банан большой, а кожура еще больше.
Эта фраза точно имеет смысл. По крайней мере — исторический.
Я знаю только две бесконечные вещи — Вселенную и человеческую глупость, и я не совсем уверен насчёт Вселенной. (c) А. Эйнштейн
P.S.: Винодельческие провинции — это есть рулез!
Re[2]: Сколько процентов всех возможных текстов имеют смысл?
Слова выстроены в предложения, все грамматически правильно. Предложения связаны друг с другом по смыслу. Но бред получается и мы однозначно можем заявить что смысла в таком тексте нет.
То есть все-таки можно прикинуть сколько процентов текстов имеют или возможно имеют смысл.
Re[3]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Почему именно 10000? Это же всего 0.01% Комбинация из двух слов почти всегда может быть частью осмысленного текста, за редким исключением.
может или является? это две большие разницы. Потому что "может" то оно может, при появлении нового контекста в будущем. Но в текущих существующих контекстах (даже если мы возьмём все контексты в мире на текущий момент) осмысленные пары слов составляют дай бог десятую долю процента. Можете на вскидку попробовать погуглить "магнитный окорок", "журчащая веб-страница", "привлекательная запятая". Это то что мой бредогенератор нагенерил только что. А лучше возьмите любой словарь, сгенерите пары слов (или даже возьмите одно любое слово-существительное, и посмотрите процент других слов, которые в паре дают какой-то смысл) и вы сразу всё поймёте.
Re[11]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
DM>>А если автор недоступен, а есть только текст? (с генератором же именно так) Вот манускрипт Войнича — осмысленный текст или нет? Никто не знает до сих пор.
S>Ваша ошибка в том, что вы делаете выводы из текущей ситуации. Считаете что ситуация конечна. S>Для расшифровки некоторых задач сознанием требуеются годы а иногда сотни лет. При этом задача может быть не столь актуальной. S>Вполне возможно что манускрипт расшифруют. Что вы тогда скажете?
Здравствуйте, Shmj, Вы писали:
S>Изучал ли кто-нибудь этот вопрос? S>Принимаются идеи.
Смысл текста определяется только в контексте интерпретирующего субъекта, который на основании полученной информации демонстрирует какое-то поведение.
Я могу сделать робота, который читает любой текст и в зависимости от него едет либо направо, либо налево. Для этого робота 100% всех текстов будут осмысленными.
Re: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Возьмем только 10 тыс. самых популярных слов. Скорее всего худо-бедно ими можно выразить любой смысл (чего нет заменять на "штуковина", "фиговина" и пр.). S>Получается всего вариантов предложений 10^40.
Не получается. Потому что эволюция, которую ты тут пытаешься моделировать, не является случайным процессом. Эволюция — направленный и детерминированный (ограниченно) процесс, хотя в его основе и лежат случайности (мутации). Таким образом помимо слов нужно ввести ещё и правила их сочетаний и критерии отбора сочетаний. Ну и, как тебе уже указали, начинать надо с коротких предложений.
Re[2]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, anonymous, Вы писали:
A>Не получается. Потому что эволюция, которую ты тут пытаешься моделировать, не является случайным процессом. Эволюция — направленный и детерминированный (ограниченно) процесс, хотя в его основе и лежат случайности (мутации). Таким образом помимо слов нужно ввести ещё и правила их сочетаний и критерии отбора сочетаний. Ну и, как тебе уже указали, начинать надо с коротких предложений.
Хорошо. Пусть даже с коротких предложений. А правила кто задал?
Давайте вы будете случайные слова генерить а я вам говорить есть смысл или нет. И сколько нужно попыток, чтобы написать осмысленный текст?
Re[3]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
A>>Не получается. Потому что эволюция, которую ты тут пытаешься моделировать, не является случайным процессом. Эволюция — направленный и детерминированный (ограниченно) процесс, хотя в его основе и лежат случайности (мутации). Таким образом помимо слов нужно ввести ещё и правила их сочетаний и критерии отбора сочетаний. Ну и, как тебе уже указали, начинать надо с коротких предложений. S>Хорошо. Пусть даже с коротких предложений. А правила кто задал?
Природа — химия, физика. Для эксперимента мы можем установить их сами, например, существительное сочетается только с прилагательным, а они с глаголом, это значительно ограничивает количество вариантов. То есть набора слов не достаточно, нужно ввести грамматику.
S>Давайте вы будете случайные слова генерить а я вам говорить есть смысл или нет. И сколько нужно попыток, чтобы написать осмысленный текст?
Нет, не буду. Это противоречит тому, что я пишу.
Re[4]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, anonymous, Вы писали:
A>Природа — химия, физика. Для эксперимента мы можем установить их сами, например, существительное сочетается только с прилагательным, а они с глаголом, это значительно ограничивает количество вариантов. То есть набора слов не достаточно, нужно ввести грамматику.
Основания АЦТГ могут соединяться во всех комбинациях. Ограничений нет.
Re[4]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, kov_serg, Вы писали:
S>>Давайте вы будете случайные слова генерить а я вам говорить есть смысл или нет. И сколько нужно попыток, чтобы написать осмысленный текст? _>https://yandex.ru/referats/?t=physics
Уже приводили — не имеет отношения к обсуждаемой теме — там нет смысла. Нагенерить бреда — легко.
Re[5]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Уже приводили — не имеет отношения к обсуждаемой теме — там нет смысла. Нагенерить бреда — легко.
Дык что по вашему смысл? Для чего вообще решь возникла? Для передачи информации от одного охотника другому.
А вот когда возникла писменнось, стало возможным не просто передавать информацию, на и накапливать. И тут всё резко усложнилось.
Я думаю вам следует есть мамонта по частям. И вашу задачу расматривать эволюционно.
Re[5]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
A>>Природа — химия, физика. Для эксперимента мы можем установить их сами, например, существительное сочетается только с прилагательным, а они с глаголом, это значительно ограничивает количество вариантов. То есть набора слов не достаточно, нужно ввести грамматику. S>Основания АЦТГ могут соединяться во всех комбинациях. Ограничений нет.
Слова тоже потенциально могут соединяться в любые комбинации. Но не все эти комбинации имеют «смысл» и вообще «правильны». Например, какой прок от последовательности терминальных кодонов? От последовательности в один кодон? От двух оснований, которых даже на кодон не хватает?
Re[6]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, kov_serg, Вы писали:
S>>Уже приводили — не имеет отношения к обсуждаемой теме — там нет смысла. Нагенерить бреда — легко. _>Дык что по вашему смысл? Для чего вообще решь возникла? Для передачи информации от одного охотника другому.
Вопрос смысла не формализуем. Вот возьмите человека — каждый орган имеет смысл. Убери глаз — потеряет бинокулярное зрение.
А из бреда убери предложение и смысла меньше не станет — он все так же останется бредом.
Re[6]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, anonymous, Вы писали:
A>Слова тоже потенциально могут соединяться в любые комбинации. Но не все эти комбинации имеют «смысл» и вообще «правильны».
Вот я об этом и спрашиваю — сколько % из всех возможных текстов имеют смысл или хотя бы не бессмысленны. Корректный вопрос?
Re[7]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
A>>Слова тоже потенциально могут соединяться в любые комбинации. Но не все эти комбинации имеют «смысл» и вообще «правильны». S>Вот я об этом и спрашиваю — сколько % из всех возможных текстов имеют смысл или хотя бы не бессмысленны. Корректный вопрос?
Нет, не корректный без чёткого определения «смысла». Более того, я тебе показал, что не все тексты возможны, потому что эволюция не является полным перебором.
Re[8]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, anonymous, Вы писали:
A>Нет, не корректный без чёткого определения «смысла».
Чем вас не устраивает словарное определение?
A>Более того, я тебе показал, что не все тексты возможны, потому что эволюция не является полным перебором.
Это понятно. Но даже не полный перебор а частичный — позволяет упростить всего на несколько порядков.
Re[9]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
A>>Нет, не корректный без чёткого определения «смысла». S>Чем вас не устраивает словарное определение?
Неформализуемостью.
A>>Более того, я тебе показал, что не все тексты возможны, потому что эволюция не является полным перебором. S>Это понятно. Но даже не полный перебор а частичный — позволяет упростить всего на несколько порядков.
Это голословное утверждение.
Re[10]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, anonymous, Вы писали:
A>>>Нет, не корректный без чёткого определения «смысла». S>>Чем вас не устраивает словарное определение?
A>Неформализуемостью.
Почему? Вы в состоянии определить где есть смысл а где бред?
A>>>Более того, я тебе показал, что не все тексты возможны, потому что эволюция не является полным перебором. S>>Это понятно. Но даже не полный перебор а частичный — позволяет упростить всего на несколько порядков.
A>Это голословное утверждение.
Конкретные цифры и упираются в т.н. неформализуемость.
Re[7]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Вопрос смысла не формализуем. Вот возьмите человека — каждый орган имеет смысл. Убери глаз — потеряет бинокулярное зрение. S>А из бреда убери предложение и смысла меньше не станет — он все так же останется бредом.
Так у вас ничего не получится. Нельзя решать такие задачи в общем виде. Необходимо ввести разумные ограничения. Что бы получить смысл надо построить модель того что передаёт ваш текст и уже модель проверять на инормативность.
Re[11]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>>>Чем вас не устраивает словарное определение? A>>Неформализуемостью. S>Почему? Вы в состоянии определить где есть смысл а где бред?
S>>>Это понятно. Но даже не полный перебор а частичный — позволяет упростить всего на несколько порядков. A>>Это голословное утверждение. S>Конкретные цифры и упираются в т.н. неформализуемость.
Безразлично, чем ты оправдываешь голословность своего утверждения.
Re[8]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, kov_serg, Вы писали:
_>Так у вас ничего не получится. Нельзя решать такие задачи в общем виде. Необходимо ввести разумные ограничения. Что бы получить смысл надо построить модель того что передаёт ваш текст и уже модель проверять на инормативность.
Давайте так. 50% или меньше?
Re[12]: Сколько процентов всех возможных текстов имеют смысл?
На данном этапе — да. Как и сознание. А вопрос смысла — это связанный с сознанием вопрос.
Но примерный процент можно определить?
S>>>>Это понятно. Но даже не полный перебор а частичный — позволяет упростить всего на несколько порядков. A>>>Это голословное утверждение. S>>Конкретные цифры и упираются в т.н. неформализуемость.
A>Безразлично, чем ты оправдываешь голословность своего утверждения.
Тут даже от обратного. Рассмотреть для начала анабиоз, то есть тот процесс, который происходил еще до эволюции. Там чистые флуктуации, верно? Сколько вариантов комбинаций было создано до получения первого организма путем флуктаций? Вопрос имеет смысл?
Далее. примитивный организм должен был совершенствоваться. Для совершенствования нужно пробовать разные варианты эволюционные, часть из этих вариантов является отрицательными. Так? И далее — всколько всего было испробовано вариантов до получения первой клетки. Вопрос имеет смысл?
И то же самое, вплоть до человека.
Re[9]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Давайте так. 50% или меньше?
Если так то 0% Просто берёте любой осмысленный текст и считаете сколькими способами его можно перевести в бесмысленный и так для любого образца.
Re[13]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Но примерный процент можно определить?
42 %.
S>Тут даже от обратного. Рассмотреть для начала анабиоз, то есть тот процесс, который происходил еще до эволюции. Там чистые флуктуации, верно? Сколько вариантов комбинаций было создано до получения первого организма путем флуктаций? Вопрос имеет смысл?
Нет. У химической эволюции тоже есть правила, и это так же не полный перебор.
S>Далее. примитивный организм должен был совершенствоваться. Для совершенствования нужно пробовать разные варианты эволюционные, часть из этих вариантов является отрицательными. Так? И далее — всколько всего было испробовано вариантов до получения первой клетки. Вопрос имеет смысл?
Нет не имеет. Может, один вариант, может — два, может — тысяча. Мы этого не узнаем, поскольку следов не сохранилось. А потенциальная возможность не означает её реализации.
Re[10]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, kov_serg, Вы писали:
S>>Давайте так. 50% или меньше? _>Если так то 0% Просто берёте любой осмысленный текст и считаете сколькими способами его можно перевести в бесмысленный и так для любого образца.
То есть если вам дать книгу — вы не сможете никак отличить написал ее человек или сгенерил бредогенератор?
Re[14]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, anonymous, Вы писали:
S>>Но примерный процент можно определить? A>42 %.
Как считали?
S>>Тут даже от обратного. Рассмотреть для начала анабиоз, то есть тот процесс, который происходил еще до эволюции. Там чистые флуктуации, верно? Сколько вариантов комбинаций было создано до получения первого организма путем флуктаций? Вопрос имеет смысл?
A>Нет. У химической эволюции тоже есть правила, и это так же не полный перебор.
Для начала эволюции должна была возникнуть РНК. Так? Да, правила есть. То есть учитываем только соединение 4 оснований РНК, а вот они могут соединятся в произвольном порядке (для них правил нет).
Зная длину минимальной РНК — можно вычислить сколько вариантов было перебрано для ее получения.
S>>Далее. примитивный организм должен был совершенствоваться. Для совершенствования нужно пробовать разные варианты эволюционные, часть из этих вариантов является отрицательными. Так? И далее — всколько всего было испробовано вариантов до получения первой клетки. Вопрос имеет смысл?
A>Нет не имеет. Может, один вариант, может — два, может — тысяча. Мы этого не узнаем, поскольку следов не сохранилось. А потенциальная возможность не означает её реализации.
Интересует сколько нужно перебрать теоретически с учетом всех правил.
Re[15]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>>>Но примерный процент можно определить? A>>42 %. S>Как считали?
Ты скажи. Ты ведь требуешь цифр, а как считать, определиться не можешь.
A>>Нет. У химической эволюции тоже есть правила, и это так же не полный перебор. S>Для начала эволюции должна была возникнуть РНК. Так?
До начала биологической эволюции была химическая эволюция. Так что нет.
S>Зная длину минимальной РНК — можно вычислить сколько вариантов было перебрано для ее получения.
Нет, нельзя. Можно назвать границу сверху для полного перебора.
A>>Нет не имеет. Может, один вариант, может — два, может — тысяча. Мы этого не узнаем, поскольку следов не сохранилось. А потенциальная возможность не означает её реализации. S>Интересует сколько нужно перебрать теоретически с учетом всех правил.
Опиши правила.
Re[16]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, anonymous, Вы писали:
S>>>>Но примерный процент можно определить? A>>>42 %. S>>Как считали?
A>Ты скажи. Ты ведь требуешь цифр, а как считать, определиться не можешь.
Берешь генеришь случайный тексти смотришь есть ли в нем смысл. Потом вычисляешь среднее — сколько процентов всех текстов имеют смысл. Как то экстраполируешь данные на длинные тексты (т.е. исчезнет ли смысл при добавлении другого предложения).
Потом делаешь то же самое для 10000 других людей и выводишь среднее.
Re[16]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, anonymous, Вы писали:
A>До начала биологической эволюции была химическая эволюция. Так что нет. A>Нет, нельзя. Можно назвать границу сверху для полного перебора. A>Опиши правила.
Это отклонение от темы. Про эволюцию я заводил отдельную тему, в которой интересовался цифрами с учетом правил. Правила описаны в теории эволюции и с учетом всех этих правил требуется вывести примерное (не точное) числовое соответствие.
Re[17]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>>>Как считали? A>>Ты скажи. Ты ведь требуешь цифр, а как считать, определиться не можешь. S>Берешь генеришь случайный тексти смотришь есть ли в нем смысл.
Эволюция так не работает.
Re[18]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, anonymous, Вы писали:
A>>>Ты скажи. Ты ведь требуешь цифр, а как считать, определиться не можешь. S>>Берешь генеришь случайный тексти смотришь есть ли в нем смысл.
A>Эволюция так не работает.
Генерируйте по частям — сначала фразы, потом предложения, потом книги.
Re[19]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>>>Берешь генеришь случайный тексти смотришь есть ли в нем смысл. A>>Эволюция так не работает. S>Генерируйте по частям — сначала фразы, потом предложения, потом книги.
Эволюция так не работает.
Re[20]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>То есть если вам дать книгу — вы не сможете никак отличить написал ее человек или сгенерил бредогенератор?
В общем случае нет. https://www.youtube.com/watch?v=txZ3xSDIJCE
Re[12]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, kov_serg, Вы писали:
S>>То есть если вам дать книгу — вы не сможете никак отличить написал ее человек или сгенерил бредогенератор? _>В общем случае нет.
Для вас поясняю: исключаем псих. больных и тех, кто писал бред по приколу и пр.
Вы берете в книжном магазине книгу и не можете ответить осмысленный там текст или нет?
Re: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Здесь для русского языка, но полагаю что это общая тенденция для всех возможных языков, типа закона Ципфа. S>Возьмем только 10 тыс. самых популярных слов. Скорее всего худо-бедно ими можно выразить любой смысл (чего нет заменять на "штуковина", "фиговина" и пр.).
Предложение, не выражающее смысла ради которого было составлено, не имеет смысла. Такое предложение называется бредом, если составлено по неизвестной причине и называется маразмом, если было составлено в результате неудачной попытки выразить мысль.
Re[13]: Сколько процентов всех возможных текстов имеют смысл
Здравствуйте, Shmj, Вы писали:
S>Вы берете в книжном магазине книгу и не можете ответить осмысленный там текст или нет?
Возмите таблицу умножения. Это осмысленный текст?
А если текст передаёт выдуманные и бесполезные знания то текст имеет смысл?