Оказывается болванчик вовсе не умный - Компьютерные священные войны

https://t.me/canrobots/7011

Главный источник знаний для ChatGPT — вовсе не книги и не экспертные базы, а Reddit.

Около 40% обучающих данных пришли из форумных тредов. Второй по весу источник — Wikipedia, где много фактов, но не всегда точных. Дальше идут YouTube, Google, Yelp и прочие сервисы.

В итоге получается, что ChatGPT не формирует экспертных знаний, а воспроизводит усреднённое мнение толпы.

Вот это поворот!

Здравствуйте, T4r4sB, Вы писали:

TB>https://t.me/canrobots/7011

TB>

TB>Главный источник знаний для ChatGPT — вовсе не книги и не экспертные базы, а Reddit.

На чем на самом деле тренировали ChatGPT — публично достоверно неизвестно, как и у большинства других крупных LLM-моделей. Что они используют википедию, stackoverflow и некоторые другие подобные форумы/соцсети тоже всегода было известно. А вот какой процент я не понял откуда они эту цифру взяли.

TB>В итоге получается, что ChatGPT не формирует экспертных знаний, а воспроизводит усреднённое мнение толпы.
TB>Вот это поворот!

Лид докушал огурец
И закончил с мукою :
"Оказался GPT
Не отцом, а сукою..."
Карго-культом признаны
практисы и паттерны,
И приказано билды
За ночь снять с продакшена.

Здравствуйте, T4r4sB, Вы писали:

TB>Вот это поворот!

Известно о скандале Антропик с авторами книг. Они явно на них учились.
Также известно, что тренировать нейросеть кодировать — это совсем не то, что и учить общаться с людьми, а намного проще — программа должна компилироваться и проходить тесты. Поэтому мы в конце концов доверяем компилятору и тестам, а не ИИ.

Если говорить про общие вопросы, то тут аналогично людям — проверить всех мы не можем, а можем лишь делать выбор: доверять вот этому незнакомому эксперту из интернета/телевизора или нет. Или берём мнение нескольких экспертов, устраиваем из них ансамбль (у себя в голове) с коэффициентами доверия к каждому и опять решаем: доверять или нет. ИИ в данном контексте выступает таким же экспертом.
Кажется, что ничего не поменялось.

Здравствуйте, T4r4sB, Вы писали:

TB>Вот это поворот!
Ахренеть! Ты только сейчас об этом узнал. Не прошло и 7 лет.
Вообще-то, как только начали выкатывать в свет эти модели, так сразу и рассказывали на каких датасетах их учили.

Но, я тебя удивлю, умные китайцы не сталми перелопачивать горы этого мусора, а обучили тот же дипсик на выдаче уже обученных американцами моделей.

	От:	T4r4sB
	Дата:	17.11.25 08:40
	Оценка:	+2

	От:	Michael7
	Дата:	17.11.25 09:53
	Оценка:

	От:	Osaka
	Дата:	17.11.25 10:25
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	17.11.25 10:35
Оценка:

	От:	Vzhyk2
	Дата:	17.11.25 11:59
	Оценка:	+1