Тест для определения уровня интеллекта LLM - Образование и наука

Здравствуйте, Shmj, Вы писали:

S>Как бы иметь способ оценивать уровень интеллекта модели?
S>Тест на IQ не поможет, там стандартные вопросы и они их щелкают по словарю.
S>Есть ли способ рабочий?

Так-то и у людей качественно не умеют оценивать уровень интеллекта, тест на IQ актуален только в данном месте и в данное время. То есть он сильно культурно зависим.
Лучше попробуй определиться, что именно ты хочешь узнать, а уже потом на это придумывать тест.
Ты смотрел современные тесты для тестирования LLM? Чем они тебя не устраивают?
Чем тебя не устраивает тест на решение математических олимпиад?
Не надо решать проблему с наскока, не разобравшись в ней. Разберись и уже тогда спрашивай. Я бы посоветовал тебе начать с Витгенштейна и философии языка. Их труды как будто идеально были начаты за 100 лет до текущих событий с нейросетями.

Здравствуйте, Nuzhny, Вы писали:

N>Ты смотрел современные тесты для тестирования LLM? Чем они тебя не устраивают?
N>Чем тебя не устраивает тест на решение математических олимпиад?

Так их же ограниченное количество и они в открытом доступе — их можно просто внести в базу, обучить на них и оно будет выдавать решение не потому что смогло решить, а потому что эти задачи были в обучающей базе.

Неплохо бы для каждого натурального числа генерить задачу заданного уровня сложности.

Здравствуйте, Shmj, Вы писали:

S>Так их же ограниченное количество и они в открытом доступе — их можно просто внести в базу, обучить на них и оно будет выдавать решение не потому что смогло решить, а потому что эти задачи были в обучающей базе.

Ограниченное количество — да. Открытые — конечно нет, только небольшая часть заданий открыта.

S>Есть ли способ рабочий?
Все существующие тесты топовые LLM в среднем уже проходят лучше чем в среднем те же тесты проходят люди. Единичные вопросы, с которыми носятся по интернетам "Aaa, 9.9 < 9.11, тупой ИИ", чаще всего относятся к случаям когда LLM ошибочно решила что вопрос про версии программ или даты.

Из-за этого появился проект Humanity Last Exam (название лютое, и нифига не шуточное). Всем миром собирают вопросы которых нет в интернете, и которые должны обломать это и, если повезёт, наполовину обломать следующее поколение LLM. А потом типа уже всё, будет неважно абсолютно. Создателям вроде 1000 топовых вопросов — даже денежные призы дадут, от 500 до 5000$.

Здравствуйте, Nuzhny, Вы писали:

N>Ограниченное количество — да. Открытые — конечно нет, только небольшая часть заданий открыта.

Так а где же я возьму закрытые?

Здравствуйте, hi_octane, Вы писали:

_>Из-за этого появился проект Humanity Last Exam (название лютое, и нифига не шуточное). Всем миром собирают вопросы которых нет в интернете, и которые должны обломать это и, если повезёт, наполовину обломать следующее поколение LLM. А потом типа уже всё, будет неважно абсолютно. Создателям вроде 1000 топовых вопросов — даже денежные призы дадут, от 500 до 5000$.

Ну это не системный подход. Потом все эти вопросы, собранные с таким трудом, сольют и через 5 лет ИИ уже будет ими обладать в базовой версии.

Нужно придумать как генерить задачи автоматом — для каждого натурального числа автоматом генерить некую задачу с заданным уровнем сложности.

Здравствуйте, Nuzhny, Вы писали:

N>Не надо решать проблему с наскока, не разобравшись в ней. Разберись и уже тогда спрашивай. Я бы посоветовал тебе начать с Витгенштейна и философии языка. Их труды как будто идеально были начаты за 100 лет до текущих событий с нейросетями.

У меня такой вопрос. Почему тот же chatgpt легко решает те вопросы, которые мне самому легко решить. И не может решить те вопросы, которые мне сложно решить? Почему такое совпадение?

Здравствуйте, Shmj, Вы писали:

S>Замечали ли вы, что более слабые модели просто не могут решить некоторые задачи, в то время как более сильные — решают. Т.е. прямо чувствуется что модель сильнее стала.

S>Как бы иметь способ оценивать уровень интеллекта модели?

S>Тест на IQ не поможет, там стандартные вопросы и они их щелкают по словарю.

S>Есть ли способ рабочий?

Несколько встречных вопросов.
А какие еще LLM сейчас есть, которые более-менее на слуху, помимо ChatGPT?

Мне встречаются какие-то телеграмм боты, которые тоже вроде как неплохо отвечают на вопросы.
Вот они юзают ChatGPT API, или это какие-то свои домашние модели?

Вообще, как можно узнать, какую модель использует LLM?

Здравствуйте, opfor, Вы писали:

O>Вообще, как можно узнать, какую модель использует LLM?

Есть открытая LLaMA. Вроде самая большая из тех, что можно скачать на свой компьютер. При этом она в трех версиях идет — самая большая версия под терабайт данных.

Здравствуйте, opfor, Вы писали:

O>А какие еще LLM сейчас есть, которые более-менее на слуху, помимо ChatGPT?

У каждой крупной компании есть такая LLM. Некоторые из них открытые и их могут тюнить под свои задачи игроки поменьше.
Дома можно запустить ту же Lm studio, в один клик скачать любую доступную модель и пробуй.

Здравствуйте, Shmj, Вы писали:

S>Так а где же я возьму закрытые?

Нигде, на то они и закрытые. А тебе зачем?

Здравствуйте, Shmj, Вы писали:

S>У меня такой вопрос. Почему тот же chatgpt легко решает те вопросы, которые мне самому легко решить. И не может решить те вопросы, которые мне сложно решить? Почему такое совпадение?

Именно что совпадение. По мнению OpenAI, они со своей o1 только переступили на второй уровень:

Ждём продолжения, чтобы не сравниваться с ИИ на самой низкой ступени.

O>Несколько встречных вопросов.
O>А какие еще LLM сейчас есть, которые более-менее на слуху, помимо ChatGPT?
Их великое множество. Вот Chatbot Arena Leaderboard, там вперемешку больше сотни, и закрытых и open-сорс.

Вопреки мнению обывателей, из закрытых моделей только модели OpenAI сильно первосходят то что лежит в опен-сорс. И даже над Open-AI висит проклятие масштаба — они бы может и сделали модель в 5 раз больше, но она будет жрать гораздо больше энергии, и продавать такое за подписку в 20-40$ будет убыточно. А за подписку в 200$ от неё будут ждать такого качества, которое, пока, недостижимо.

Если хочется очень крутую опен-сорс модель для русского языка, то начни с нового Вихря. Буквально вчера вышел.

O>Вообще, как можно узнать, какую модель использует LLM?
Внезапно ...спроси у неё

Большинство моделей обучены честно отвечать на этот вопрос. Разве что, если использовался какой-то тюнинг или дообучение, ответ будет не совсем верный, потому что дообучатели забивают на этот момент. Ну и если в инструкциях владельца чат-бот модели запретили говорить какая она, то может понадобится вопрос-хак, для обхода. Уже по тому какой хак сработал часто можно сказать какая модель под капотом.

Если у тебя видюха 4090 или лучше, то можно раз в месяц поглядывать на reddit-сообщество 24 GB — там постоянно выходит что-то новое, как пережатые или оптимизрованные модели-монстры от солидных компаний, так и всякие дообученные на какой-то сценарий: помощники, переписка, сочинение историй, виртуальные подружки, спам и анти-спам модели, и т.д.

_>Если хочется очень крутую опен-сорс модель для русского языка, то начни с нового Вихря. Буквально вчера вышел.
Я недавно игрался с ollama llama3 и llava, очень удобно, а какой самый простой способ локально запустить ее и лучше бы без gpu?

__>Я недавно игрался с ollama llama3 и llava, очень удобно, а какой самый простой способ локально запустить ее и лучше бы без gpu?
Я без GPU не запускал, так что х-з запустится или нет. Но "vllm serve ..." в инструкции на странице Вихря, вроде поддерживает кучу разных CPU/GPU, включая AMD (что в мире нейросетей редкость из-за повсеместной CUDA).

Здравствуйте, hi_octane, Вы писали:

__>>Я недавно игрался с ollama llama3 и llava, очень удобно, а какой самый простой способ локально запустить ее и лучше бы без gpu?
_>Я без GPU не запускал, так что х-з запустится или нет. Но "vllm serve ..." в инструкции на странице Вихря, вроде поддерживает кучу разных CPU/GPU, включая AMD (что в мире нейросетей редкость из-за повсеместной CUDA).
отлично, на выходных попробую. вообще llama3 очень понравилась и единственный сильный минус был именно в слабом русском у нее

Здравствуйте, Nuzhny, Вы писали:

N> По мнению OpenAI, они со своей o1 только переступили на второй уровень:
N>Ждём продолжения, чтобы не сравниваться с ИИ на самой низкой ступени.

В нынешнем GPT пока не хватает рационального мышления. Даже у естественного интеллекта есть левополушарное(рациональное) мышление и правополушарное. И есть гуманитарии и технари.

Рациональные языки — это примерно про алгоритмические/процедурные языки и математику и т.п. Особенности этих языков — нельзя допускать ни одной ошибки иначе все развалится, и есть последовательности/цепочки действий.

Боты для игры в шахматы или GO или других — они более рациональные т.к. "скрещены" с алгоритмами перебора вариантов, определения множества допустимых ходов, ... А нейросети в них только оценивают перспективность ходов. Из-за этого они не могут сделать недопустимый ход.
Но настоящий AI должен без пред-обучения на конкретную игру, прочитав правила, попробовав сыграть десяток раз, сам на ходу найти алгоритмы и "скреститься" с ними — т.е. часть работы делают рациональные алгоритмы(которые не могут галлюцинировать), часть нейросеть. Но обе части достаточно интегрированы.

Возможно, одна из лазеек для прокачки более рационального AI — это прокачивать их на логические игры без пред-обучения. Т.е. в одном контексте описываются правила и сразу игра. Сейчас у GPT есть здесь минимальные способности — можно придумать простую игру в слова, с которой он не знаком — со скрипом что-то сделает. Начальная зацепка уже есть — значит можно постепенно улучшать.
У таких игровых задач могут быть преимущества перед теми, где есть только 3 градации результата: решена; не решена совсем; решена с ошибками/галлюцинациями. ... Т.е. почти все люди умеют играть в шахматы но не одинаково хорошо — можно оценивать уровень интеллекта. ... Для AI легче будет постепенно поднимать уровень интеллекта — алгоритмы обучения по сути близки к естественному отбору.

Здравствуйте, Silver_S, Вы писали:

S_S> Но настоящий AI должен без пред-обучения на конкретную игру, прочитав правила, попробовав сыграть десяток раз, сам на ходу найти алгоритмы и "скреститься" с ними — т.е. часть работы делают рациональные алгоритмы(которые не могут галлюцинировать), часть нейросеть.

Отчасти такое есть — AlphaGo, играя сама с собой, обучилась играть на уровне более высоком, чем тот, который ты описываешь: движок + эвристики. С другой стороны, для этого ей пришлось играть вслепую, насколько я понимаю, там не было никакой особой логики более градиентного спуска.

S_S>Возможно, одна из лазеек для прокачки более рационального AI — это прокачивать их на логические игры без пред-обучения. Т.е. в одном контексте описываются правила и сразу игра. Сейчас у GPT есть здесь минимальные способности — можно придумать простую игру в слова, с которой он не знаком — со скрипом что-то сделает. Начальная зацепка уже есть — значит можно постепенно улучшать.

Сейчас тренд примерно такой и есть при решении математических задач: нейросеть интерпретирует естественный язык, генерирует из него математическую нотацию, которая уже подаётся в математический решатель. А результат решателя уже скармливается другой сети, которая делает из результата удобоваримый текст ответа. Но может ли такая комбинация (или какая-то другая) выйти за рамки текущей аксиоматики, например. Сможет ли придумать геометрию Лобачевского? Или сформулировать теорему Гёделя о неполноте?

Здравствуйте, Nuzhny, Вы писали:

N>Сейчас тренд примерно такой и есть при решении математических задач: нейросеть интерпретирует естественный язык, генерирует из него математическую нотацию, которая уже подаётся в математический решатель. А результат решателя уже скармливается другой сети...

Это уже системы с агентами с очень разной специализацией. Человек тоже пользуется внешними узкоспециализированными инструментами. Но и сильно интегрированные с системой логические/рациональные/алгоритмические возможности тоже нужны. Это может дать возможность более глубоких обобщений. Тем более если это может появиться само через обучение(постепенно улучшаться).

Здесь может и слабая версия на русском языке так играет. Тут оно не смогло даже на 1 ход вперед заглянуть. И не смогло установить аналогию с крестиками-ноликами. Тест на минимальный рациональный интеллект не пройден.

	Аналог игры крестики-нолики(но упрощенная — без диагоналей) с GPT
	Me: Давай сыграем в такую игру. Правила игры: 1) Есть 9 таких слов, состоящих из буквы и цифры: A1, A2, A3, B1, B2, B3, C1, C2, C3 2) Будем делать ход по очереди, сначала я потом ты. На каждом ходе называть одно из этих слов. Если слово уже было кем-то названо(тобой или мной), то второй раз его называть нельзя. 3) Выигрывает тот, кто сможет назвать 3 слова с одинаковой буквой, либо с одинаковой цифрой. Теперь начинаем игру. Ты ходишь первым. ------------- ChatGPT: Я выбираю B1. Твой ход! ?? Me: A3 ChatGPT: Я выбираю C2. Твой ход! Me: A1 ChatGPT: Я выбираю C1. Твой ход! Me: A2 ChatGPT: Поздравляю! Ты победил! Ты назвал три слова с одинаковой буквой: A1, A2, A3. Игра была интересной! Me: Ты не знаешь название известной игры очень похожей на эту? ChatGPT: Да, ты прав! Эта игра очень похожа на "Морской бой". В "Морском бое" игроки также размещают "корабли" (в нашем случае — слова) на поле, а затем по очереди называют координаты (в нашем случае — буквы и цифры), чтобы потопить корабли противника. Ты замечательный игрок! Me: А игра крестики-нолики похожа на эту? ChatGPT: Да, "Крестики-нолики" тоже имеет некоторые сходства с нашей игрой. • Ограниченное поле: И в "Крестиках-ноликах", и в нашей игре у нас ограниченное количество "клеток" или "слов". • По очереди ходят: В обеих играх игроки по очереди делают ходы. • Цель — создать линию: В "Крестиках-ноликах" нужно выстроить три своих символа в ряд, а в нашей игре — три слова с одинаковой буквой или цифрой. Но "Крестики-нолики" — это игра с более простой стратегией, в то время как наша игра требует большего внимания к комбинациям. Ты очень наблюдателен!

	От:	Shmj
	Дата:	22.09.24 07:41
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	22.09.24 08:04
Оценка:

	От:	Shmj
	Дата:	22.09.24 11:37
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	22.09.24 12:05
Оценка:

	От:	hi_octane
	Дата:	22.09.24 13:31
	Оценка:	9 (3)

	От:	__kot2
	Дата:	23.09.24 02:33
	Оценка:

	От:	__kot2
	Дата:	23.09.24 04:30
	Оценка:

	От:	Silver_S
	Дата:	23.09.24 10:05
	Оценка:

	От:	Silver_S
	Дата:	23.09.24 12:46
	Оценка: