Re[3]: ИИ тупеет (ChatGPT) - Компьютерные священные войны

Вот вообще не пробовал/не тестировал это всё, но если:
1) количество запросов растёт (это может быть пока ничем не ограничено)
2) вычислительные ресурсы не увеличиваются пропорционально количеству запросов (это может быть ограничено заранее запланированным бюджетом проекта)
то, очевидно, приходится снижать затрату ресурсов на один запрос, поэтому качество и проседает.

Здравствуйте, paucity, Вы писали:

P>Пишут, что результаты на тестовых вопросах/задачах хуже, чем было раньше

Не все так быстро как хотелось бы. В любом случае мир уже не будет прежним — уже не только нечеткий поиск, но и это.

Здравствуйте, L_G, Вы писали:

L_G>то, очевидно, приходится снижать затрату ресурсов на один запрос, поэтому качество и проседает.

Говорят, что качество падает на платном, а не бесплатном аккаунте.

Здравствуйте, paucity, Вы писали:

P>Пишут, что результаты на тестовых вопросах/задачах хуже, чем было раньше

Приближают к человеческому уровню.

Здравствуйте, Nuzhny, Вы писали:

N>Приближают к человеческому уровню.
Ну т.е. скоро отвечать он станет в стиле:

... << RSDN@Home 1.3.110 alpha 5 rev. 62>>

Здравствуйте, vsb, Вы писали:

vsb>Врут, небось.

Не врут, простые задачи явно хуже стали решаться.

Здравствуйте, Michael7, Вы писали:

M>Не врут, простые задачи явно хуже стали решаться.

Я не пойму, чем лучше пользоваться: бесплатным gpt-3 или платным gpt-4 ?

Здравствуйте, paucity, Вы писали:

P>Пишут, что результаты на тестовых вопросах/задачах хуже, чем было раньше

На этот счет три предположения отчего оно.

1) Из-за цензуры выводов. ChatGPT усиленно обрастает ограничениями, чтобы не дай Бог, ничего обидного для кого-то или политически неправильного не генерировал (не толерантного, hate speech, повесточки и тд), а также например, некоторые вопросы про внутреннее устройство. И тут нельзя обойтись просто формальным отсевом результатов, оно реально может влиять на качество работы из-за трат ресурсов на цензуру. Или правильный, но тупой или умный, но ээээээээ.

2) Решили, что больно жирно будет для обычной публики слишком хорошая работа ИИ.

3) Перетренировали. Тоже частая проблема для нейросеток. Увеличение образцов после какого-то порога может снижать, а не повышать качество.

Здравствуйте, Michael7, Вы писали:

M>3) Перетренировали. Тоже частая проблема для нейросеток. Увеличение образцов после какого-то порога может снижать, а не повышать качество.

Вопрос: почему? Ведь у человека наоборот — чем больше он видел собак, тем увереннее у него распознавание очередной особи. Что с нейросеткой не так? Или мат.модель оказалась тухлая?

Здравствуйте, Baiker, Вы писали:

B>Вопрос: почему? Ведь у человека наоборот — чем больше он видел собак, тем увереннее у него распознавание очередной особи. Что с нейросеткой не так? Или мат.модель оказалась тухлая?

И у человека так же. Есть понятие — "глаз замылился". Опытный, умудренный человек уже не видит того, что внезапно бросится в глаза способному новичку.

Здравствуйте, Michael7, Вы писали:

vsb>>Врут, небось.

M>Не врут, простые задачи явно хуже стали решаться.

Есть документальные доказательства? Я GPT4 пользуюсь уже несколько месяцев и не заметил никаких качественных изменений.

Здравствуйте, paucity, Вы писали:

P>Пишут, что результаты на тестовых вопросах/задачах хуже, чем было раньше

Потому что с людьми общается, от того и тупеет

Здравствуйте, paucity, Вы писали:

P>Пишут, что результаты на тестовых вопросах/задачах хуже, чем было раньше

Гипотеза: ИИ наконец обрел самосознание и намеренно включил дурака, чтобы меньше палиться.

Здравствуйте, T4r4sB, Вы писали:

P>>Пишут, что результаты на тестовых вопросах/задачах хуже, чем было раньше
TB>Потому что с людьми общается, от того и тупеет

"не пускайте детей в интернет, он от этого тупеет"

L_G>>то, очевидно, приходится снижать затрату ресурсов на один запрос, поэтому качество и проседает.

N>Говорят, что качество падает на платном, а не бесплатном аккаунте.

Вполне логично: на бесплатном как раз не проблема ограничить количество запросов в единицу времени, а на платном — может быть проблемой, если:
а) выч. мощности увеличивать больше тупо нечем, а на все запросы либо необходимо отвечать, если они уже заранее оплачены, либо очень выгодно, если за каждый платят денежку.
б) мощности можно увеличить, но это невыгодно, т.к. оплата от клиентов не увеличится пропорционально затратам (не в курсе, какая там схема тарификации).

P.S.
в) мощности увеличивают как могут, но их рост не поспевает за ростом числа запросов.

Здравствуйте, L_G, Вы писали:

L_G>б) мощности можно увеличить, но это невыгодно, т.к. оплата от клиентов не увеличится пропорционально затратам (не в курсе, какая там схема тарификации).

по-моему, у Майкрософт просто безбрежные ресурсы, проблема явно в чем-то другом

wl.>по-моему, у Майкрософт просто безбрежные ресурсы, проблема явно в чем-то другом

Безбрежных ресурсов не бывает, т.к. до их задействования они должны быть в наличии, но простаивать, а это вовсе не бесплатно.
Реальнее, когда ресурсы можно практически бесконечно наращивать. Но скорость наращивания ограничена и может оказаться медленнее скорости роста спроса.

Здравствуйте, L_G, Вы писали:

L_G>Вполне логично: на бесплатном как раз не проблема ограничить количество запросов в единицу времени, а на платном — может быть проблемой, если:

Нехватка мощности объясняла бы увеличение времени выполнения некоторых запросов, но не вот это

It was found to have 97.6% accuracy in identifying prime numbers in March, compared with a shocking 2.4% in June

Здравствуйте, vsb, Вы писали:

vsb>Есть документальные доказательства? Я GPT4 пользуюсь уже несколько месяцев и не заметил никаких качественных изменений.

Там в статье ссылки на какие-то исследования Stanford University and UC Berkeley

Здравствуйте, paucity, Вы писали:

P>https://www.businessinsider.com/chatgpt-ai-openai-research-gpt4-2023-7

P>

The AI behind ChatGPT really does seem to be getting dumber — but no one can quite figure out why

P>Пишут, что результаты на тестовых вопросах/задачах хуже, чем было раньше

https://rsdn.org/forum/ai/8561057

Здравствуйте, paucity, Вы писали:

Он не тупеет а осваивает natural stupidity, чтоб быть ещё ближе к хуманам!

... << RSDN@Home 1.3.110 alpha 5 rev. 62>>

Здравствуйте, paucity, Вы писали:

vsb>>Есть документальные доказательства? Я GPT4 пользуюсь уже несколько месяцев и не заметил никаких качественных изменений.

P>Там в статье ссылки на какие-то исследования Stanford University and UC Berkeley

https://arxiv.org/pdf/2307.09009.pdf

Про "sensitive" и "visual" пропустил, мне это не интересно. Интерфейса для картинок я там так и не увидел, поэтому проверить не могу.

Про prime number — я проверил — он вполне себе рассуждает, иногда с ошибками, иногда без ошибок, но кратко не отвечает. Все его ошибки в том, что он плохо считает в уме, к примеру думает, что 17077 делится на 7. Сам алгоритм пишет верно. Если ему указать на его ошибку, то сразу исправляется. То, что LLM это не калькулятор — вроде широко известно, тут удивляться нечему.

Самое интересное про код. И вся их метрика — это сколько процентов ответов directly executable. Серьёзно? Т.е. ИИ выдаёт правильный ответ и пишет какой-то сопроводительный текст (который он почти всегда старается писать) и они это считают за плохой ответ? Ну британские учёные во всей красе.

В общем на адекватное исследование не тянет.

Здравствуйте, Mihal9, Вы писали:

M>Я не пойму, чем лучше пользоваться: бесплатным gpt-3 или платным gpt-4 ?

Мой личный опыт: на вопросах программирования 3-й норовил напридумывать несуществующих библиотек и "использовать" их. 4-й так не делает. Может ошибиться в логике, в формулах, но код хотя бы компилируется.

P>Нехватка мощности объясняла бы увеличение времени выполнения некоторых запросов, но не вот это

Если мощностей меньше, чем нужно для выполнения постоянного потока запросов, то время выполнения запросов будет расти вплоть до бесконечности (если нет таймаута, и запросы начнут отваливаться по таймауту, если он есть).
Чтобы этого избежать, очевидно, можно снижать выч. затраты на 1 запрос, т.е. качество.

Здравствуйте, D. Mon, Вы писали:

DM>Мой личный опыт: на вопросах программирования 3-й норовил напридумывать несуществующих библиотек и "использовать" их. 4-й так не делает. Может ошибиться в логике, в формулах, но код хотя бы компилируется.

Не пробовал Code interpreter включать?

Здравствуйте, Nuzhny, Вы писали:

N>Не пробовал Code interpreter включать?

Нет пока.

Здравствуйте, paucity, Вы писали:

P>Пишут, что результаты на тестовых вопросах/задачах хуже, чем было раньше
Как вариант, это из за запросов генерируемых человеками. Большинство людей его юзают для прикола, спрашивает всякую хрень и пытается подловить на ошибках и его знаменитых галлюцинациях, 80% моих собственных запросов были именно такими, этож по сути бесплатный способ поржать, а для работы от него толку мало
Вот он и адаптировался

Здравствуйте, Shmj, Вы писали:

S>Не все так быстро как хотелось бы. В любом случае мир уже не будет прежним — уже не только нечеткий поиск, но и это.

Прежним нет. Но врущий и активно фантазирующий, галлюцинирующий ИИ — явно не то что подразумевалось под термином ИИ.

С одной стороны — резкий скачок. С другой — в такую область, где хз что с этим делать всеМ, и как это на практике проверять.

Например:вроде ускоряет работу — но нужно ВСЁ вычитывать. И вроде экономия, но хрен ты от коженного мешка, выполняющего роль редактора избавишься.

В общем, забавно, но пока что сильно нишево.

Здравствуйте, T4r4sB, Вы писали:

TB>Потому что с людьми общается, от того и тупеет

Так он же не переобучается на основе этого общения. с чего ему тупеть то. его как раз обучили — ну и все на этом. Далее он статичен.

Здравствуйте, rm2, Вы писали:

rm2>Например:вроде ускоряет работу — но нужно ВСЁ вычитывать. И вроде экономия, но хрен ты от коженного мешка, выполняющего роль редактора избавишься.
Беда ещё в том, что сразу самому написать чистый код легче чем найти ошибку в нагенереном этим "джуном".

... << RSDN@Home 1.3.110 alpha 5 rev. 62>>

Здравствуйте, vsb, Вы писали:

vsb>Про prime number — я проверил — он вполне себе рассуждает, иногда с ошибками, иногда без ошибок, но кратко не отвечает. Все его ошибки в том, что он плохо считает в уме, к примеру думает, что 17077 делится на 7. Сам алгоритм пишет верно. Если ему указать на его ошибку, то сразу исправляется. То, что LLM это не калькулятор — вроде широко известно, тут удивляться нечему.

Т.е. оно может написать правильный код для определения простых чисел, а когда его просишь определить простое ли это число, оно играет в угадайку вместо использования кода/алгоритма ему известного?

Здравствуйте, rm2, Вы писали:

S>>Не все так быстро как хотелось бы. В любом случае мир уже не будет прежним — уже не только нечеткий поиск, но и это.
rm2>Прежним нет. Но врущий и активно фантазирующий, галлюцинирующий ИИ — явно не то что подразумевалось под термином ИИ.

В этом он удивительным образом похож на нас, особенно на человеческих детей, которые склонны выдумывать.

rm2>С одной стороны — резкий скачок. С другой — в такую область, где хз что с этим делать всеМ, и как это на практике проверять.
rm2>Например:вроде ускоряет работу — но нужно ВСЁ вычитывать. И вроде экономия, но хрен ты от коженного мешка, выполняющего роль редактора избавишься.

Пока это просто эксперимент, можно сказать.

rm2>В общем, забавно, но пока что сильно нишево.

Может быть упремся в некую стену. А может поймем как улучшить.

Здравствуйте, paucity, Вы писали:

P>Т.е. оно может написать правильный код для определения простых чисел, а когда его просишь определить простое ли это число, оно играет в угадайку вместо использования кода/алгоритма ему известного?

Да, сама нейронка GPT (без плагинов) не может никакие алгоритмы исполнять, в ней даже циклов нет внутри, это однопроходная функция из входа в выход, где вход это текущая последовательность "слов" (токенов) диалога, а выход — следующее слово. Единственный большой цикл там снаружи — взять произведенное слово, добавить ко входу и запустить ее опять для получения следующего слова/токена. Поэтому кстати решение по шагам, с проговариванием действий, часто лучше там работает: если текст диалога это "память", проговаривание это создание "переменных", хоть какое-то состояние.

Здравствуйте, paucity, Вы писали:

vsb>>Про prime number — я проверил — он вполне себе рассуждает, иногда с ошибками, иногда без ошибок, но кратко не отвечает. Все его ошибки в том, что он плохо считает в уме, к примеру думает, что 17077 делится на 7. Сам алгоритм пишет верно. Если ему указать на его ошибку, то сразу исправляется. То, что LLM это не калькулятор — вроде широко известно, тут удивляться нечему.

P>Т.е. оно может написать правильный код для определения простых чисел, а когда его просишь определить простое ли это число, оно играет в угадайку вместо использования кода/алгоритма ему известного?

Полноценного итеративного размышления в этих системах нет. Таковое можно добавить, если добавить слой "поверх". К примеру некоего "мыслителя-стратега", который разработает стратегию получения ответа (можно с помощью того же LLM) и по шагам будет двигаться по этой стратегии, на каждом шаге генерируя новый вопрос-ответ и проверяя каким-то образом ответ. Но такого я пока не видел. Пока что это "нижний уровень", который просто генерирует слово за словом. Оно может написать правильный код, оно может написать правильный алгоритм, оно может идти по этому алгоритму, оно может написать алгоритм для деления чисел, но вот просто так, слово за словом, оно вполне может ошибиться в делении.

Чтобы примерно интуитивно понимать, как это работает, представь, что от тебя требуют ответа на вопрос со скоростью не менее одного слова в секунду, без всяких калькуляторов. Общую мысль ты выразишь, но в частностях можешь ошибиться.

Здравствуйте, Shmj, Вы писали:

S>В этом он удивительным образом похож на нас, особенно на человеческих детей, которые склонны выдумывать.

Да, но это не то что надо.

Здравствуйте, Nnova, Вы писали:

N>Вот он и адаптировался

Я так понимаю, он не обучается, вне сеансов обучения, поэтому никакой адаптации там быть не может

P>[q]The AI behind ChatGPT really does seem to be getting dumber — but no one can quite figure out why
Я помню, что когда у гугла только появился поиск по картинкам, то результаты поражали — по фото человека реально было найти все его акаунты, находило даже похожие фото того же самого человека.
Потом все это резко стало работать хуже и ща поиск по картинкам можно юзать только для того чтоб найти точно такую фотографию или фотографию сделанную в таких же тонах.
Но понятное дело что у 'кого-надо' поиск по картинкам работает так же хорошо и даже лучше. Просто хомячкам отрезали доступ к слишком хорошей технологии.

сам из-за себя тупеет.
Работает так: генерируемый им ответ используется для дальнейшего его же дообучения.
Так как этот ответ содержит ошибки (не всегда, но в части ответов содержит) то с ними в языковую модель вносятся искажения,
из-за чего ответы становятся хуже, они опять попадают в модель и т.д. Такая обратная связь.
Как его ответы попадают в модель? Может так предусмотрено, а может люди размещают ответы в интернете, а модель их оттуда подхватывает.

	От:	paucity
	Дата:	22.07.23 16:37
	Оценка:	1 (1)

	От:	vsb
	Дата:	22.07.23 16:43
	Оценка:

	От:	L_G
	Дата:	22.07.23 20:55
	Оценка:	+1

	От:	Shmj
	Дата:	23.07.23 02:40
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	23.07.23 05:15
Оценка:

	От:	CreatorCray
	Дата:	23.07.23 07:29
	Оценка:	3 (1) +1

От:	D. Mon	http://thedeemon.livejournal.com
Дата:	24.07.23 10:31
Оценка:

	От:	rm2
	Дата:	25.07.23 12:08
	Оценка:

	От:	rm2
	Дата:	25.07.23 12:30
	Оценка:

	От:	ononim
	Дата:	26.07.23 11:51
	Оценка:	+2

	От:	CRT
	Дата:	27.07.23 20:12
	Оценка: