Главный источник знаний для ChatGPT — вовсе не книги и не экспертные базы, а Reddit.
Около 40% обучающих данных пришли из форумных тредов. Второй по весу источник — Wikipedia, где много фактов, но не всегда точных. Дальше идут YouTube, Google, Yelp и прочие сервисы.
В итоге получается, что ChatGPT не формирует экспертных знаний, а воспроизводит усреднённое мнение толпы.
Вот это поворот!
Нет такой подлости и мерзости, на которую бы не пошёл gcc ради бессмысленных 5% скорости в никому не нужном синтетическом тесте
TB>Главный источник знаний для ChatGPT — вовсе не книги и не экспертные базы, а Reddit.
На чем на самом деле тренировали ChatGPT — публично достоверно неизвестно, как и у большинства других крупных LLM-моделей. Что они используют википедию, stackoverflow и некоторые другие подобные форумы/соцсети тоже всегода было известно. А вот какой процент я не понял откуда они эту цифру взяли.
TB>В итоге получается, что ChatGPT не формирует экспертных знаний, а воспроизводит усреднённое мнение толпы. TB>Вот это поворот!
Лид докушал огурец
И закончил с мукою :
"Оказался GPT
Не отцом, а сукою..."
Карго-культом признаны
практисы и паттерны,
И приказано билды
За ночь снять с продакшена.
Друга ищи не того, кто любезен с тобой, кто с тобой соглашается, а крепкого советника, кто полезного для тебя ищет и противится твоим необдуманным словам.
Здравствуйте, T4r4sB, Вы писали:
TB>Вот это поворот!
Известно о скандале Антропик с авторами книг. Они явно на них учились.
Также известно, что тренировать нейросеть кодировать — это совсем не то, что и учить общаться с людьми, а намного проще — программа должна компилироваться и проходить тесты. Поэтому мы в конце концов доверяем компилятору и тестам, а не ИИ.
Если говорить про общие вопросы, то тут аналогично людям — проверить всех мы не можем, а можем лишь делать выбор: доверять вот этому незнакомому эксперту из интернета/телевизора или нет. Или берём мнение нескольких экспертов, устраиваем из них ансамбль (у себя в голове) с коэффициентами доверия к каждому и опять решаем: доверять или нет. ИИ в данном контексте выступает таким же экспертом.
Кажется, что ничего не поменялось.
Здравствуйте, T4r4sB, Вы писали:
TB>Вот это поворот!
Ахренеть! Ты только сейчас об этом узнал. Не прошло и 7 лет.
Вообще-то, как только начали выкатывать в свет эти модели, так сразу и рассказывали на каких датасетах их учили.
Но, я тебя удивлю, умные китайцы не сталми перелопачивать горы этого мусора, а обучили тот же дипсик на выдаче уже обученных американцами моделей.
Здравствуйте, Vzhyk2, Вы писали:
V>Здравствуйте, T4r4sB, Вы писали:
TB>>Вот это поворот! V>Ахренеть! Ты только сейчас об этом узнал. Не прошло и 7 лет.
Сам фшоке1111
Нет такой подлости и мерзости, на которую бы не пошёл gcc ради бессмысленных 5% скорости в никому не нужном синтетическом тесте