Здравствуйте, Shmj, Вы писали:
S> Вообще речь о случайном возникновении какого-либо текста, включая контекст. Т.е. такой текст, смысл которого вы поймете однозначно.
Это можно лишь оценить для конкретного получателя/читателя, т.к. оценка осмысленности зависит от, фактически, всего жизненного опыта читателя. Вот посадить Shmj и заставить оценить осмысленность миллиарда текстов, тогда получим число. А текст сам по себе, без оглядки на получателя, смысл не содержит. Обычно мы предполагаем, что автор текста вложил в него смысл, т.к. текст имеет смысл хотя бы для автора. А при случайной генерации этой предпосылки уже нет, остается лишь сам текст. Т.е. это всегда функция вида ЕстьСмысл(Текст, Получатель). Без второго аргумента не работает. Вон киты песни поют и общаются друг с другом — как понять, какие их "тексты" имеют смысл, а какие — просто флатуленция?
Re[8]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, D. Mon, Вы писали:
S>> Вообще речь о случайном возникновении какого-либо текста, включая контекст. Т.е. такой текст, смысл которого вы поймете однозначно.
DM>Это можно лишь оценить для конкретного получателя/читателя, т.к. оценка осмысленности зависит от, фактически, всего жизненного опыта читателя.
Ваша ошибка в том, что вы считаете читателя статичным, не способным к поиску и изучению новой информации.
Вы как бы рассматриваете его как некий алгоритм, программу. Забывая что сознание по своей природе отлично от алгоритма.
DM>Вот посадить Shmj и заставить оценить осмысленность миллиарда текстов, тогда получим число.
Посадить любое сознание, заинтересованное в нахождении смысла -- и получим примерно одинаковое число. Да, будет некий процент ошибок, сознание так устроено. При более тщательном изучени ошибки можно уменьшить.
DM>А текст сам по себе, без оглядки на получателя, смысл не содержит. Обычно мы предполагаем, что автор текста вложил в него смысл, т.к. текст имеет смысл хотя бы для автора. А при случайной генерации этой предпосылки уже нет, остается лишь сам текст. Т.е. это всегда функция вида ЕстьСмысл(Текст, Получатель).
Нет. Важно лишь чтобы оценку проводило адекватное и более менее здоровое сознание. Сразу можно сказать когда смысла точно нет. Спорными являются не завершенные, вырванные из контекста фразы и предложения.
Даже если текст сейчас не ясен -- можно углубиться, изучить и сделать однозначный вывод.
Думаю что из базы слов для случайной генерации стоит исключить сложные термины, чтобы упростить время на осознание.
DM>Без второго аргумента не работает.
Ошибка непонимания природы сознания.
DM>Вон киты песни поют и общаются друг с другом — как понять, какие их "тексты" имеют смысл, а какие — просто флатуленция?
На изучение языка требуется время. Это возможно, но займет несколько лет.
По этому я предлагаю оценивать тот язык, который человек уже знает. Просто для сокращения времени на осознание.
Re[3]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
V>>А это зачем-то нужно кроме праздного любопытства?
S>А доказательство теоремы Пуанкаре зачем-то нужно, кроме праздного любопытства? S>Вообще в мире ничего не нужно. Жить можно и без электричества и без интернета и без радио. 100 тыс. лет люди так жили и еще бы 100 тыс. прожили, а вот наука скорее подвергает жизнь опасности, так как приводит к загрязнению воды и воздуха. S>Все делается исключительно ради праздного любопытства. Причем свиду не интересная вещь может привести к очень интересным выводам.
Судя по эмоциональности ответа, ответ на мой вопрос: "не нужно и понятия не имею зачем может пригодится".
В противном случае ответ был бы простой: "на сегодняшний момент — нет"
Вообще — нормальный вопрос, зачем так кипятиться? Если это попытка решения реальной задачи, то, возможно, можно было бы обсудить другие подходы к её решению.
Re[9]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
DM>>А текст сам по себе, без оглядки на получателя, смысл не содержит. Обычно мы предполагаем, что автор текста вложил в него смысл, т.к. текст имеет смысл хотя бы для автора. А при случайной генерации этой предпосылки уже нет, остается лишь сам текст. Т.е. это всегда функция вида ЕстьСмысл(Текст, Получатель).
S>Нет. Важно лишь чтобы оценку проводило адекватное и более менее здоровое сознание. Сразу можно сказать когда смысла точно нет. Спорными являются не завершенные, вырванные из контекста фразы и предложения. S>Даже если текст сейчас не ясен -- можно углубиться, изучить и сделать однозначный вывод.
В случае человеческих текстов можно спросить у автора, что именно он имел в виду, т.е. пополнить свой контекст и понять текст.
А если автор недоступен, а есть только текст? (с генератором же именно так) Вот манускрипт Войнича — осмысленный текст или нет? Никто не знает до сих пор.
Или, скажем, 10 лет назад попался бы "здоровому сознанию" написанный генератором текст
цель работы в «разработке арифметической версии теории Тейхмюллера для цифровых полей ограниченных эллиптической кривой… с помощью применения теории полуграфов анабелиоидов, фробениоидов, эталь тета-функций и логарифмических оболочек».
без объяснения использованных понятий. Как тут в принципе можно решить, имеет ли он смысл? Без доступа к автору?
Какое-то объяснение этих вещей появилось 5 лет назад в работах Синъити Мотидзуки, но разобраться в них пока никому практически не получилось. А 10 лет назад тех работ еще не было, а текст такой мог бы быть получен генератором. И как, имеет он смысл или нет?
А если мы сгенерируем другой текст, который сейчас выглядит ахинеей, а через 50 лет окажется осмысленным в рамках какой-то новой теории?
DM>>Вон киты песни поют и общаются друг с другом — как понять, какие их "тексты" имеют смысл, а какие — просто флатуленция?
S>На изучение языка требуется время. Это возможно, но займет несколько лет.
А вот хрен. Языком китов и дельфинов уже давно занимаются, все никак не могут расшифровать. Без налаженного канала коммуникации с автором текста, понять его осмысленность не выходит.
Re[4]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, vmpire, Вы писали:
V>Вообще — нормальный вопрос, зачем так кипятиться? Если это попытка решения реальной задачи, то, возможно, можно было бы обсудить другие подходы к её решению.
Есть предположение что для всех существующих языков (как естественных так и искусственных) количество осмысенных текство примерно одинаковое. Хотелось бы проверить это предположение, пока начать с одного языка.
Если предположение подтвердится, то последуют весьма интересные выводы.
Re[10]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, D. Mon, Вы писали:
DM>В случае человеческих текстов можно спросить у автора, что именно он имел в виду, т.е. пополнить свой контекст и понять текст.
Это не нужно, чтобы понять имеет смысл текст или нет. Разве что если автор психически не полноценен.
DM>А если автор недоступен, а есть только текст? (с генератором же именно так) Вот манускрипт Войнича — осмысленный текст или нет? Никто не знает до сих пор.
Ваша ошибка в том, что вы делаете выводы из текущей ситуации. Считаете что ситуация конечна.
Для расшифровки некоторых задач сознанием требуеются годы а иногда сотни лет. При этом задача может быть не столь актуальной.
Вполне возможно что манускрипт расшифруют. Что вы тогда скажете?
DM>Или, скажем, 10 лет назад попался бы "здоровому сознанию" написанный генератором текст DM>
цель работы в «разработке арифметической версии теории Тейхмюллера для цифровых полей ограниченных эллиптической кривой… с помощью применения теории полуграфов анабелиоидов, фробениоидов, эталь тета-функций и логарифмических оболочек».
DM>без объяснения использованных понятий. Как тут в принципе можно решить, имеет ли он смысл? Без доступа к автору?
Научные термины исключить из словаря для генерации для упрощения. Почти все такие тексты можно отнести к "возможно имеющий смысл". И для уточнения его группы потребуется очень много времени.
По этому в словарь добавить только самые простые слова. В принципе ими можно выразить любую мысль.
Если вы добавите в словарь сложные термины -- ничего принципиально не изменится, вероятность случайного возникновения осмысленного текста не увеличится и не уменьшится значительно. Вы лишь усложните задачку классификации.
DM>Какое-то объяснение этих вещей появилось 5 лет назад в работах Синъити Мотидзуки, но разобраться в них пока никому практически не получилось. А 10 лет назад тех работ еще не было, а текст такой мог бы быть получен генератором. И как, имеет он смысл или нет?
Да, некоторые вещи требуют годы для осознания. Именно по этому нужно максимально упростить задачу -- использовать не большой словарь без спец. терминов. Или вы думаете что если добавите термины -- то что-то принципиально изменится?
DM>А если мы сгенерируем другой текст, который сейчас выглядит ахинеей, а через 50 лет окажется осмысленным в рамках какой-то новой теории?
Он не будет выглядеть ахинеей. Он будет классифицирован как "возможно имеющий смысл".
Классификация текста с точными научными терминами занимает много времени. По этому от терминов в словаре я и отказался.
DM>А вот хрен. Языком китов и дельфинов уже давно занимаются, все никак не могут расшифровать. Без налаженного канала коммуникации с автором текста, понять его осмысленность не выходит.
И что? Вы утверждаете что никогда не смогут? Смогут, нужно время.
Re: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Хоть одно найдете, где бы можно было изменить окончания/добавить частицы и получить некое предложение со смыслом?
Ваш пример показывает полную бесперспективность подхода. Вы пытаетесь построить полное предложение за один шаг. Так у вас не хватит никаких вычислительных мощностей.
Правильный вариант — такой:
1. Начинаем с предложений из двух слов. Их всего 10^8.
2. Выбираем из них 10000 наиболее осмысленных.
3. Начинаем комбинировать предложения, случайно выбирая комбинации вроде склейки, вставки в середину, и выбрасывания слова. У нас опять получается примерно 10^8 вариантов.
4. Выбираем из них 10000 наиболее осмысленных.
5. На каждом шаге средняя длина предложения у нас будет прирастать на полтора слова. Всего за 6 шагов, по 10^8 вариантов на каждом, мы получаем осмысленные предложения длиной в 10 слов и более.
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[5]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали: S>Если 30 Мб, то получается 10^9030899 вариантов. Даже если вариантов со смыслом триллион триллионов, то остается минимум 10^9030800 вариантов перебора разных мутаций нужно было сделать. За пределами возможностей способностей нашей Вселенной. Вселенная даже 100 байт хеша перебрать не в силах.
Нет, не нужно. Вам уже десять человек пятьдесят раз объяснили, как на самом деле работает построение генокода. Это не подбор пароля — это линейный, а не экспоненциальный процесс.
Биологи, посмотрев на геномы двух организма, могут неплохо оценить, насколько давно у них был общий предок.
Потому что скорость внесения изменений (количество бит в единицу времени) примерно постоянна.
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[6]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Sinclair, Вы писали:
S>Правильный вариант — такой: S>1. Начинаем с предложений из двух слов. Их всего 10^8.
Так.
S>2. Выбираем из них 10000 наиболее осмысленных.
Почему именно 10000? Это же всего 0.01% Комбинация из двух слов почти всегда может быть частью осмысленного текста, за редким исключением.
S>3. Начинаем комбинировать предложения, случайно выбирая комбинации вроде склейки, вставки в середину, и выбрасывания слова. У нас опять получается примерно 10^8 вариантов. S>4. Выбираем из них 10000 наиболее осмысленных. S>5. На каждом шаге средняя длина предложения у нас будет прирастать на полтора слова. Всего за 6 шагов, по 10^8 вариантов на каждом, мы получаем осмысленные предложения длиной в 10 слов и более.
А где гарантия что ваших 10^8 предложений, которые вы получили в конце, хватит для комбинации в осмысленный текст книги?
Здравствуйте, Shmj, Вы писали:
>Сколько процентов всех возможных текстов имеют смысл?
Вопрос сродни моделированию у Лема ("выращивание информации"): у нас есть газ в объеме, в котором хаотически летает N молекул которые на какое-то время выстраивают двоичные конфигурации содержащие: стихи лучше Шекспировских, формулы лучше Эйнштейновских и пр. и пр. И показывается, что ввиду отсутствия фильтра, вылавливающего эти самые стихи и формулы из триллионов неинформативных конфигурвций, этот способ безнадежен.
Вот, например, текст больного шизофазией с лурка:
Родился на улице Герцена. В гастрономе № 22. Известный экономист. По призванию своему библиотекарь. В народе — колхозник. В магазине — продавец. В экономике, так сказать, необходим. Это, так сказать, система… эээ… в составе 120 единиц. Фотографируйте Мурманский полуостров — и получаете te-le-fun-ken. И бухгалтер работает по другой линии. По линии «Библиотека». Потому что не воздух будет, а академик будет! Ну вот можно сфотографировать Мурманский полуостров. Можно стать воздушным асом. Можно стать воздушной планетой. И будешь уверен, что эту планету примут по учебнику. Значит, на пользу физики пойдет одна планета.
Очевидно, каждое предложение имеет смысл... Или не имеет? Потому как при шизофазии — структура речи формально не нарушена, грамматических ошибок нет, но предложения не несут никакого смысла.
Возникает вопрос — учитывать ли предложения выше как осмысленные или нет?
Опять-таки. Если у нас 10 слов в предложении, а членов предложения грубо говоря 3: подлежащее(существительное, местоимение), сказуемое(глагол), дополнение (существительное прилагательное местоимение предлог) то есть совершенно точные формулы количества сочетаний C(m,n) которые можно составить из 10 000 слов. И все они будут осмысленными, но вряд ли юудут нести какую-то информацию:
"Он срал мимо Млечного Пути"
"Она родилась на улице Цветочной"
"Оно было"
В каком-то контекстсе все эти фразу быдыт осмысленными, а в каких-то нет. Но порождены-то они по одному шаблону! Так считать их или нет?
Здравствуйте, Wolverrum, Вы писали:
W>Очевидно, каждое предложение имеет смысл... Или не имеет? Потому как при шизофазии — структура речи формально не нарушена, грамматических ошибок нет, но предложения не несут никакого смысла.
Предложение имеет, а вот текст нет.
Нужно еще правильно сочитать предложения.
W>Возникает вопрос — учитывать ли предложения выше как осмысленные или нет?
Текст целиком -- нет.
W>Опять-таки. Если у нас 10 слов в предложении, а членов предложения грубо говоря 3: подлежащее(существительное, местоимение), сказуемое(глагол), дополнение (существительное прилагательное местоимение предлог) то есть совершенно точные формулы количества сочетаний C(m,n) которые можно составить из 10 000 слов. И все они будут осмысленными, но вряд ли юудут нести какую-то информацию:
W>"Он срал мимо Млечного Пути" W>"Она родилась на улице Цветочной" W>"Оно было"
Вообще конечный итог вычислений -- количество не осмысленных предложений а осмысленных текстов размером, скажем, болеее 100 тыс. слов. Предложения должны сочитаться.
W>В каком-то контекстсе все эти фразу быдыт осмысленными, а в каких-то нет. Но порождены-то они по одному шаблону! Так считать их или нет?
Как предложение -- считать осмысленным. Далее считать вероятность собрать осмысленный текст.
Re[3]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Shmj, Вы писали:
S>Здравствуйте, Sinclair, Вы писали:
S>>Правильный вариант — такой: S>>1. Начинаем с предложений из двух слов. Их всего 10^8.
S>Так.
S>>2. Выбираем из них 10000 наиболее осмысленных.
S>Почему именно 10000? Это же всего 0.01% Комбинация из двух слов почти всегда может быть частью осмысленного текста, за редким исключением.
Потому что так работает эволюция. Размер популяции ограничен. Все недостаточно хорошие уходят, даже если они и не совсем плохие. S>>3. Начинаем комбинировать предложения, случайно выбирая комбинации вроде склейки, вставки в середину, и выбрасывания слова. У нас опять получается примерно 10^8 вариантов. S>>4. Выбираем из них 10000 наиболее осмысленных. S>>5. На каждом шаге средняя длина предложения у нас будет прирастать на полтора слова. Всего за 6 шагов, по 10^8 вариантов на каждом, мы получаем осмысленные предложения длиной в 10 слов и более.
S>А где гарантия что ваших 10^8 предложений, которые вы получили в конце, хватит для комбинации в осмысленный текст книги?
Не понимаю вот этого перехода. Я вам показал, как за 6 шагов (а не за квинтиллионы, как у вас) получается осмысленное предложение в 10 слов.
За 60 шагов мы таким образом получим десяток предложений. И далее всё продолжается линейно, экспоненциального взрыва нет.
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[2]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, D. Mon, Вы писали:
DM>Для каждого слова W какова его вероятность появления после слова A? DM>Для каждого слова W какова его вероятность появления после пары слов A B?
Сеть Маркова?
Re[4]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Sinclair, Вы писали:
S>>Почему именно 10000? Это же всего 0.01% Комбинация из двух слов почти всегда может быть частью осмысленного текста, за редким исключением. S>Потому что так работает эволюция. Размер популяции ограничен. Все недостаточно хорошие уходят, даже если они и не совсем плохие.
Вопрос про конкретные 10 тыс. Почему не 1 млн. из 100 млн. вариантов вы взяли?
S>>А где гарантия что ваших 10^8 предложений, которые вы получили в конце, хватит для комбинации в осмысленный текст книги? S>Не понимаю вот этого перехода. Я вам показал, как за 6 шагов (а не за квинтиллионы, как у вас) получается осмысленное предложение в 10 слов. S>За 60 шагов мы таким образом получим десяток предложений. И далее всё продолжается линейно, экспоненциального взрыва нет.
Смотрите в чем ошибка. Вы взяли 10 тыс. вариантов. Взяли с потолка, признайтесь честно. Не разобрались.
Что если взять не 10 тыс. а 1 тыс.? Что-то принципиально изменится? А если не 1 тыс. а 100? Где граница, после которой предложенная схема отбора перестанет работать?
Если вы начнете не с потолка брать цифры а попытаетесь их вычислить (хотя бы с применением эмирических методов), то увидите что для такого перебора нужно оставлять не 0.01% а практически все (ближе к 90%) полученные комбинации. В таком же случае получается слишком много вариантов для перебора.
Здравствуйте, Shmj, Вы писали:
S>Предложение имеет, а вот текст нет.
Почему нет? Для кого-то (для автора?) он может выстраивать вполне осмысленную цепочку образов. Примерно как картины некоторых художников, кто-то их признает шедеврами, а на мой взгляд — бессмысленное дерьмо.
Переубедить Вас, к сожалению, мне не удастся, поэтому сразу перейду к оскорблениям.
Re[6]: Сколько процентов всех возможных текстов имеют смысл?
Здравствуйте, Sinclair, Вы писали:
S>Здравствуйте, Shmj, Вы писали: S>>Если 30 Мб, то получается 10^9030899 вариантов. Даже если вариантов со смыслом триллион триллионов, то остается минимум 10^9030800 вариантов перебора разных мутаций нужно было сделать. За пределами возможностей способностей нашей Вселенной. Вселенная даже 100 байт хеша перебрать не в силах. S>Нет, не нужно. Вам уже десять человек пятьдесят раз объяснили, как на самом деле работает построение генокода. Это не подбор пароля — это линейный, а не экспоненциальный процесс. S>Биологи, посмотрев на геномы двух организма, могут неплохо оценить, насколько давно у них был общий предок. S>Потому что скорость внесения изменений (количество бит в единицу времени) примерно постоянна.
Можно и пароль в качестве аналога привести. Но это такой пароль, при подаче которого есть уязвимость по первым правильным символам.
PS. А вообще, чувак, конечно упорный. Нет бы сразу сказать, что креационизм это его всё, а в эволюцию он "НЕ ВЕРИТ". Так нет же, столько обходных путей искать.
Здравствуйте, Shmj, Вы писали:
S>Как вычислить хотя бы примерное значение из них, которые имеют смысл или хотя бы возможно не бессмысленны?
S>Принимаются идеи.
В качестве иллюстрации:
(visual created by the Google Dream neural network)
Возьмем три слова, скажем: она, водка, любить.
Никакое их сочетание не генерирует осмысленных фраз — грамматика не позволяет.
Т.е. из всего множества можно отсечь все что грамматически и синтаксически некорректно.
Т.к. набор правил известен и можно сказать формализован — задача вычисляема. Т.е. можно получить верхнюю оценку того что в принципе имеет смысл.
Рискну утверждать что любая грамматически построенная фраза имеет смысл. От поэтического до бытового.
Например "она любит водку" и "водка любит её".
Вторую можно отсечь правилом "неодушевленное любить не может" но поэтам закон не писан.
Очевидно что смысл это нечеткая оценка. Т.е. подходить к данной задаче имеет смысл с позиций логики возможностей (fuzzy sets / logic )
Здравствуйте, D. Mon, Вы писали:
DM>9) Банан большой, а кожура еще больше.
Эта фраза точно имеет смысл. По крайней мере — исторический.
Я знаю только две бесконечные вещи — Вселенную и человеческую глупость, и я не совсем уверен насчёт Вселенной. (c) А. Эйнштейн
P.S.: Винодельческие провинции — это есть рулез!