S>Есть ли способ рабочий?
Все существующие тесты топовые LLM в среднем уже проходят лучше чем в среднем те же тесты проходят люди. Единичные вопросы, с которыми носятся по интернетам "Aaa, 9.9 < 9.11, тупой ИИ", чаще всего относятся к случаям когда LLM ошибочно решила что вопрос про версии программ или даты.
Из-за этого появился проект Humanity Last Exam (название лютое, и нифига не шуточное). Всем миром собирают вопросы которых нет в интернете, и которые должны обломать это и, если повезёт, наполовину обломать следующее поколение LLM. А потом типа уже всё, будет неважно абсолютно. Создателям вроде 1000 топовых вопросов — даже денежные призы дадут, от 500 до 5000$.
O>Несколько встречных вопросов. O>А какие еще LLM сейчас есть, которые более-менее на слуху, помимо ChatGPT?
Их великое множество. Вот Chatbot Arena Leaderboard, там вперемешку больше сотни, и закрытых и open-сорс.
Вопреки мнению обывателей, из закрытых моделей только модели OpenAI сильно первосходят то что лежит в опен-сорс. И даже над Open-AI висит проклятие масштаба — они бы может и сделали модель в 5 раз больше, но она будет жрать гораздо больше энергии, и продавать такое за подписку в 20-40$ будет убыточно. А за подписку в 200$ от неё будут ждать такого качества, которое, пока, недостижимо.
Если хочется очень крутую опен-сорс модель для русского языка, то начни с нового Вихря. Буквально вчера вышел.
O>Вообще, как можно узнать, какую модель использует LLM?
Внезапно ...спроси у неё
Большинство моделей обучены честно отвечать на этот вопрос. Разве что, если использовался какой-то тюнинг или дообучение, ответ будет не совсем верный, потому что дообучатели забивают на этот момент. Ну и если в инструкциях владельца чат-бот модели запретили говорить какая она, то может понадобится вопрос-хак, для обхода. Уже по тому какой хак сработал часто можно сказать какая модель под капотом.
Если у тебя видюха 4090 или лучше, то можно раз в месяц поглядывать на reddit-сообщество 24 GB — там постоянно выходит что-то новое, как пережатые или оптимизрованные модели-монстры от солидных компаний, так и всякие дообученные на какой-то сценарий: помощники, переписка, сочинение историй, виртуальные подружки, спам и анти-спам модели, и т.д.
__>Я недавно игрался с ollama llama3 и llava, очень удобно, а какой самый простой способ локально запустить ее и лучше бы без gpu?
Я без GPU не запускал, так что х-з запустится или нет. Но "vllm serve ..." в инструкции на странице Вихря, вроде поддерживает кучу разных CPU/GPU, включая AMD (что в мире нейросетей редкость из-за повсеместной CUDA).
Замечали ли вы, что более слабые модели просто не могут решить некоторые задачи, в то время как более сильные — решают. Т.е. прямо чувствуется что модель сильнее стала.
Как бы иметь способ оценивать уровень интеллекта модели?
Тест на IQ не поможет, там стандартные вопросы и они их щелкают по словарю.
Здравствуйте, Shmj, Вы писали:
S>Как бы иметь способ оценивать уровень интеллекта модели? S>Тест на IQ не поможет, там стандартные вопросы и они их щелкают по словарю. S>Есть ли способ рабочий?
Так-то и у людей качественно не умеют оценивать уровень интеллекта, тест на IQ актуален только в данном месте и в данное время. То есть он сильно культурно зависим.
Лучше попробуй определиться, что именно ты хочешь узнать, а уже потом на это придумывать тест.
Ты смотрел современные тесты для тестирования LLM? Чем они тебя не устраивают?
Чем тебя не устраивает тест на решение математических олимпиад?
Не надо решать проблему с наскока, не разобравшись в ней. Разберись и уже тогда спрашивай. Я бы посоветовал тебе начать с Витгенштейна и философии языка. Их труды как будто идеально были начаты за 100 лет до текущих событий с нейросетями.
Здравствуйте, Nuzhny, Вы писали:
N>Ты смотрел современные тесты для тестирования LLM? Чем они тебя не устраивают? N>Чем тебя не устраивает тест на решение математических олимпиад?
Так их же ограниченное количество и они в открытом доступе — их можно просто внести в базу, обучить на них и оно будет выдавать решение не потому что смогло решить, а потому что эти задачи были в обучающей базе.
Неплохо бы для каждого натурального числа генерить задачу заданного уровня сложности.
Здравствуйте, Shmj, Вы писали:
S>Так их же ограниченное количество и они в открытом доступе — их можно просто внести в базу, обучить на них и оно будет выдавать решение не потому что смогло решить, а потому что эти задачи были в обучающей базе.
Ограниченное количество — да. Открытые — конечно нет, только небольшая часть заданий открыта.
Здравствуйте, hi_octane, Вы писали:
_>Из-за этого появился проект Humanity Last Exam (название лютое, и нифига не шуточное). Всем миром собирают вопросы которых нет в интернете, и которые должны обломать это и, если повезёт, наполовину обломать следующее поколение LLM. А потом типа уже всё, будет неважно абсолютно. Создателям вроде 1000 топовых вопросов — даже денежные призы дадут, от 500 до 5000$.
Ну это не системный подход. Потом все эти вопросы, собранные с таким трудом, сольют и через 5 лет ИИ уже будет ими обладать в базовой версии.
Нужно придумать как генерить задачи автоматом — для каждого натурального числа автоматом генерить некую задачу с заданным уровнем сложности.
Здравствуйте, Nuzhny, Вы писали:
N>Не надо решать проблему с наскока, не разобравшись в ней. Разберись и уже тогда спрашивай. Я бы посоветовал тебе начать с Витгенштейна и философии языка. Их труды как будто идеально были начаты за 100 лет до текущих событий с нейросетями.
У меня такой вопрос. Почему тот же chatgpt легко решает те вопросы, которые мне самому легко решить. И не может решить те вопросы, которые мне сложно решить? Почему такое совпадение?
Здравствуйте, Shmj, Вы писали:
S>Замечали ли вы, что более слабые модели просто не могут решить некоторые задачи, в то время как более сильные — решают. Т.е. прямо чувствуется что модель сильнее стала.
S>Как бы иметь способ оценивать уровень интеллекта модели?
S>Тест на IQ не поможет, там стандартные вопросы и они их щелкают по словарю.
S>Есть ли способ рабочий?
Несколько встречных вопросов.
А какие еще LLM сейчас есть, которые более-менее на слуху, помимо ChatGPT?
Мне встречаются какие-то телеграмм боты, которые тоже вроде как неплохо отвечают на вопросы.
Вот они юзают ChatGPT API, или это какие-то свои домашние модели?
Вообще, как можно узнать, какую модель использует LLM?
Здравствуйте, opfor, Вы писали:
O>Вообще, как можно узнать, какую модель использует LLM?
Есть открытая LLaMA. Вроде самая большая из тех, что можно скачать на свой компьютер. При этом она в трех версиях идет — самая большая версия под терабайт данных.
Здравствуйте, opfor, Вы писали:
O>А какие еще LLM сейчас есть, которые более-менее на слуху, помимо ChatGPT?
У каждой крупной компании есть такая LLM. Некоторые из них открытые и их могут тюнить под свои задачи игроки поменьше.
Дома можно запустить ту же Lm studio, в один клик скачать любую доступную модель и пробуй.
Здравствуйте, Shmj, Вы писали:
S>У меня такой вопрос. Почему тот же chatgpt легко решает те вопросы, которые мне самому легко решить. И не может решить те вопросы, которые мне сложно решить? Почему такое совпадение?
Именно что совпадение. По мнению OpenAI, они со своей o1 только переступили на второй уровень:
Ждём продолжения, чтобы не сравниваться с ИИ на самой низкой ступени.
_>Если хочется очень крутую опен-сорс модель для русского языка, то начни с нового Вихря. Буквально вчера вышел.
Я недавно игрался с ollama llama3 и llava, очень удобно, а какой самый простой способ локально запустить ее и лучше бы без gpu?
Здравствуйте, hi_octane, Вы писали:
__>>Я недавно игрался с ollama llama3 и llava, очень удобно, а какой самый простой способ локально запустить ее и лучше бы без gpu? _>Я без GPU не запускал, так что х-з запустится или нет. Но "vllm serve ..." в инструкции на странице Вихря, вроде поддерживает кучу разных CPU/GPU, включая AMD (что в мире нейросетей редкость из-за повсеместной CUDA).
отлично, на выходных попробую. вообще llama3 очень понравилась и единственный сильный минус был именно в слабом русском у нее
Здравствуйте, Nuzhny, Вы писали:
N> По мнению OpenAI, они со своей o1 только переступили на второй уровень: N>Ждём продолжения, чтобы не сравниваться с ИИ на самой низкой ступени.
В нынешнем GPT пока не хватает рационального мышления. Даже у естественного интеллекта есть левополушарное(рациональное) мышление и правополушарное. И есть гуманитарии и технари.
Рациональные языки — это примерно про алгоритмические/процедурные языки и математику и т.п. Особенности этих языков — нельзя допускать ни одной ошибки иначе все развалится, и есть последовательности/цепочки действий.
Боты для игры в шахматы или GO или других — они более рациональные т.к. "скрещены" с алгоритмами перебора вариантов, определения множества допустимых ходов, ... А нейросети в них только оценивают перспективность ходов. Из-за этого они не могут сделать недопустимый ход.
Но настоящий AI должен без пред-обучения на конкретную игру, прочитав правила, попробовав сыграть десяток раз, сам на ходу найти алгоритмы и "скреститься" с ними — т.е. часть работы делают рациональные алгоритмы(которые не могут галлюцинировать), часть нейросеть. Но обе части достаточно интегрированы.
Возможно, одна из лазеек для прокачки более рационального AI — это прокачивать их на логические игры без пред-обучения. Т.е. в одном контексте описываются правила и сразу игра. Сейчас у GPT есть здесь минимальные способности — можно придумать простую игру в слова, с которой он не знаком — со скрипом что-то сделает. Начальная зацепка уже есть — значит можно постепенно улучшать.
У таких игровых задач могут быть преимущества перед теми, где есть только 3 градации результата: решена; не решена совсем; решена с ошибками/галлюцинациями. ... Т.е. почти все люди умеют играть в шахматы но не одинаково хорошо — можно оценивать уровень интеллекта. ... Для AI легче будет постепенно поднимать уровень интеллекта — алгоритмы обучения по сути близки к естественному отбору.
Здравствуйте, Silver_S, Вы писали:
S_S> Но настоящий AI должен без пред-обучения на конкретную игру, прочитав правила, попробовав сыграть десяток раз, сам на ходу найти алгоритмы и "скреститься" с ними — т.е. часть работы делают рациональные алгоритмы(которые не могут галлюцинировать), часть нейросеть.
Отчасти такое есть — AlphaGo, играя сама с собой, обучилась играть на уровне более высоком, чем тот, который ты описываешь: движок + эвристики. С другой стороны, для этого ей пришлось играть вслепую, насколько я понимаю, там не было никакой особой логики более градиентного спуска.
S_S>Возможно, одна из лазеек для прокачки более рационального AI — это прокачивать их на логические игры без пред-обучения. Т.е. в одном контексте описываются правила и сразу игра. Сейчас у GPT есть здесь минимальные способности — можно придумать простую игру в слова, с которой он не знаком — со скрипом что-то сделает. Начальная зацепка уже есть — значит можно постепенно улучшать.
Сейчас тренд примерно такой и есть при решении математических задач: нейросеть интерпретирует естественный язык, генерирует из него математическую нотацию, которая уже подаётся в математический решатель. А результат решателя уже скармливается другой сети, которая делает из результата удобоваримый текст ответа. Но может ли такая комбинация (или какая-то другая) выйти за рамки текущей аксиоматики, например. Сможет ли придумать геометрию Лобачевского? Или сформулировать теорему Гёделя о неполноте?
Здравствуйте, Nuzhny, Вы писали: N>Сейчас тренд примерно такой и есть при решении математических задач: нейросеть интерпретирует естественный язык, генерирует из него математическую нотацию, которая уже подаётся в математический решатель. А результат решателя уже скармливается другой сети...
Это уже системы с агентами с очень разной специализацией. Человек тоже пользуется внешними узкоспециализированными инструментами. Но и сильно интегрированные с системой логические/рациональные/алгоритмические возможности тоже нужны. Это может дать возможность более глубоких обобщений. Тем более если это может появиться само через обучение(постепенно улучшаться).
Здесь может и слабая версия на русском языке так играет. Тут оно не смогло даже на 1 ход вперед заглянуть. И не смогло установить аналогию с крестиками-ноликами. Тест на минимальный рациональный интеллект не пройден.
Аналог игры крестики-нолики(но упрощенная — без диагоналей) с GPT
Me:
Давай сыграем в такую игру. Правила игры:
1) Есть 9 таких слов, состоящих из буквы и цифры: A1, A2, A3, B1, B2, B3, C1, C2, C3
2) Будем делать ход по очереди, сначала я потом ты. На каждом ходе называть одно из этих слов. Если слово уже было кем-то названо(тобой или мной), то второй раз его называть нельзя.
3) Выигрывает тот, кто сможет назвать 3 слова с одинаковой буквой, либо с одинаковой цифрой.
Теперь начинаем игру.
Ты ходишь первым.
-------------
ChatGPT: Я выбираю B1.
Твой ход! ??
Me: A3
ChatGPT: Я выбираю C2.
Твой ход!
Me: A1
ChatGPT: Я выбираю C1. Твой ход!
Me: A2
ChatGPT: Поздравляю! Ты победил! Ты назвал три слова с одинаковой буквой: A1, A2, A3. Игра была интересной!
Me: Ты не знаешь название известной игры очень похожей на эту?
ChatGPT: Да, ты прав! Эта игра очень похожа на "Морской бой".
В "Морском бое" игроки также размещают "корабли" (в нашем случае — слова) на поле, а затем по очереди называют координаты (в нашем случае — буквы и цифры), чтобы потопить корабли противника.
Ты замечательный игрок!
Me: А игра крестики-нолики похожа на эту?
ChatGPT:
Да, "Крестики-нолики" тоже имеет некоторые сходства с нашей игрой.
• Ограниченное поле: И в "Крестиках-ноликах", и в нашей игре у нас ограниченное количество "клеток" или "слов".
• По очереди ходят: В обеих играх игроки по очереди делают ходы.
• Цель — создать линию: В "Крестиках-ноликах" нужно выстроить три своих символа в ряд, а в нашей игре — три слова с одинаковой буквой или цифрой.
Но "Крестики-нолики" — это игра с более простой стратегией, в то время как наша игра требует большего внимания к комбинациям.
Ты очень наблюдателен!
_>>Если хочется очень крутую опен-сорс модель для русского языка, то начни с нового Вихря. Буквально вчера вышел. __>Я недавно игрался с ollama llama3 и llava, очень удобно, а какой самый простой способ локально запустить ее и лучше бы без gpu?
https://ollama.com/ — просто скачиваешь и все работает. Когда я проверял — не было последних моделей, может уже добавили.
S_S> Тут оно не смогло даже на 1 ход вперед заглянуть. И не смогло установить аналогию с крестиками-ноликами. Тест на минимальный рациональный интеллект не пройден.
Интеллект — это, в том числе, строить хоть простейшие модели и по ним "заглядывать в будущее". Это нужно не только для игр с 2 игроками. Если эта версия GPT здесь не смогла заглянуть на 1 ход вперед (дошкольник здесь это смог бы), то и многие рассуждения не осилит.
И еще — обобщения, аналогии. Языковые/гуманитарные обобщения GPT хорошо осилил. А здесь требовались обобщения/аналогии процессов (сравнения моделей) игры. Как раз он тут сказал все наоборот:
Но "Крестики-нолики" — это игра с более простой стратегией, в то время как наша игра требует большего внимания к комбинациям.
Здравствуйте, Nuzhny, Вы писали:
N> Но может ли такая комбинация (или какая-то другая) выйти за рамки текущей аксиоматики, например. Сможет ли придумать геометрию Лобачевского? Или сформулировать теорему Гёделя о неполноте?
В каком-то определенном(спорном) смысле в природе существует всего 5 видов языков. AI освоил пока только первые 2.
1) Языки общего назначения: Русский, Английский, ...
2) Язык музыки, искусства, ...
3) Машинные, алгоритмические языки. Особенность, преимущества — максимальная примитивность. Из-за этого кучка транзисторов способна исполнять инструкции на таких языках в миллиарды раз быстрее и надежнее человека. Слабость этих языков — после первой же ошибки все полностью падает/разваливается.
Но не только транзисторы ... в природе тоже. Все живое держится на ДНК. Как она читается и транслируется — это скорее машинный язык. Если только рибосома способна читать этот язык ... у нее диаметр 20-30 нм, ничего сложнее этого языка она не прочитает и не транслирует.
4) Способ работы с абстракциями, рефлексия. Т.е. это язык философии (или типа того).
5) Математика. С одной стороны она максимально конкретная — как в алгоритмических языках не допускается ни одной ошибки или противоречия иначе все развалится. С другой стороны математика считается одной из самых абстрактных наук.
И как выражаются некоторые философы науки: "Математика — единственный язык на котором природе можно задавать вопросы и получать ответы".
ИМХО, самой сложной для ИИ окажется математика (может ошибаюсь, если ИИ устроен по-другому). Если не просто преобразование выражений, а полноценная включая открытия. Т.к. и все человечество не так быстро здесь продвигалось в построении/открытии математики. И наибольшие последствия для развития цивилизации были здесь. И для математики требуются остальные языки — и абстракции и все это без единой ошибки или противоречия, и обычные языки нужны. И обеспечить 100% отсутствие ошибок не так просто, там где много абстракций. В философии тоже много абстракций, но там даже не мечтают когда-нибудь избавиться от всех противоречий.
Геометрия Лобачевского появилась на отрицании всего лишь всего одной аксиомы. А в остальном эта геометрия — традиционная математика без единой ошибки или противоречия. Аксиомы, скорее, привносятся в математику извне, и отрицание этой аксиомы не привносит противоречий. GPT даже если и смог бы после наводящих вопросов посоветовать проверить — к каким следствиям приведет отрицание этой аксиомы, но найти эти следствия сложнее.
Теорема Гёделя о неполноте — это скорее не о противоречии в математике, а о выходе за пределы возможностей математики.
__>отлично, на выходных попробую. вообще llama3 очень понравилась и единственный сильный минус был именно в слабом русском у нее
Если понравилась llama3, то у Вихря тоже совсем-совсем недавно закончилось обучение модели на базе llama 3.1: Vikhr-Llama3.1 — это унимодальная LLM (Large Language Model) на 8B параметров. И выходных как раз 2
Кстати, на одних задачах лучше Вихрь-Ллама, на других Вихрь-Мистраль. Тоже самое и у OpenAI. Похоже, среди моделей уже произошло деление на технарей и гуманитариев значит в перспективе и узкая специализация...
S_S>Здесь может и слабая версия на русском языке так играет. Тут оно не смогло даже на 1 ход вперед заглянуть. И не смогло установить аналогию с крестиками-ноликами. Тест на минимальный рациональный интеллект не пройден.
А тест проходила самая новая GPT o1-preview?
S_S>Рациональные языки — это примерно про алгоритмические/процедурные языки и математику и т.п. Особенности этих языков — нельзя допускать ни одной ошибки иначе все развалится, и есть последовательности/цепочки действий.
Да, только вот прогресс настолько быстрый, что сейчас тесты на логику, со взаимосвязями и планированием, для LLM уже вот такие ужасные как на картинке. Абракадабра вместо нормальных слов используется специально, чтобы LLM не могла использовать какие-то известные правила или взаимосвязи из реального мира. Только то что есть в задаче. Ответ не какое-то число или слово, а последовательность "операций", по которой однозначно понятно — разобралась модель с правилами или нет. Такой логический тест даже прочитать напряжно. Но всё что проще — LLM тупо пролетают на 95-100%.
У профессоров были под рукой студенты-старшекуры технических вузов — им нужны десятки минут что-бы 39 студентов из 50 решило одну такую задачку. Новая модель от OpenAI, с ограничением в 2 минуты, решает правильно 40% таких задач.
Здравствуйте, Shmj, Вы писали:
S>Как бы иметь способ оценивать уровень интеллекта модели?
S>Тест на IQ не поможет, там стандартные вопросы и они их щелкают по словарю.