идея для разработчиков облачных LLM: систематизация (и обработка, в т.ч. ручная) наиболее часто встречающихся ошибок (особенно которые решать ИИ самостоятельно всё никак научится не может)
Даже 99% успешных операций ИИ недостаточно для реальных задач
По данным опроса McKinsey за 2025 год, более половины компаний, использующих ИИ, столкнулись с негативными последствиями из-за недостаточной надёжности, а треть — с ошибками, связанными с неточностью моделей. Поэтому переход от «первых девяток» к промышленной надёжности становится ключевым фактором для массового внедрения ИИ в бизнес-процессы.
ну чё, дело говорит — только надо как то стимулировать разработчиков подробно описывать, как возникающие проблемы (при использовании ИИ), так и то какими образом они были решены (подробно) ..
и в идеале чтобы облачная LLM самостоятельно переобучалась (и/или до обучалась) на этих данных, с отслеживанием (и репортами) о том сколько таких же (или схожих кейсов) — уже успешно решено (или ещё нет)
тогда можно будет сортирануть список по самым часто встречающимся ошибкам (схожим) которые ещё не решены (в автоматизированном режиме), и натравливая LLM на них с генерацией отсчётов о том как нейросеть предполагает их решать — выяснить в чём проблема (в ручном режиме и с чтением отчётов пользователей, о том как всё таки решена была проблема)
(и так пока все ошибки не рассосутся, от самых массовых до единичных — ну или хотя бы, главное шоб, список сокращался — хотя бы общее число удельное на единицу использования ИИ инструмента)
P.S.:
ну и комментами всё покрывать как в промышленной разработке (чтоб точно знать что где и куда делает код)
я про это уже писал, но идея с систематизацией наиболее часто встречающихся схожих (и т.п.) ошибок мне пока ещё кажется свежей
xma>Даже 99% успешных операций ИИ недостаточно для реальных задач
Это как с распознаванием лиц. Если у тебя система работает с точностью 99.99% процентов, то в московском метро (около 7 млн пассажиров в сутки) они будет ошибаться 700 раз в сутки. Кажется, что можно было бы ещё девяточку к точности накинуть.
В целом реальные системы имеют разные требования: если надо добиться не более 1% брака в продукции, например при сортировке яблок (реальный кейс), то камеру можно смело вешать над сортировщиком и убрать людей из процесса.
Если ИИ помогает врачам не пропустить опухоль, то лучше иметь больше ложных сработок, которые отсеит врач последующими исследованиями, чем пропустить злокачественную опухоль.
Re[2]: идея для разработчиков облачных LLM: систематизация ошибок
Здравствуйте, Nuzhny, Вы писали:
N>В целом реальные системы имеют разные требования: если надо добиться не более 1% брака в продукции, например при сортировке яблок (реальный кейс), то камеру можно смело вешать над сортировщиком и убрать людей из процесса. N>Если ИИ помогает врачам не пропустить опухоль, то лучше иметь больше ложных сработок, которые отсеит врач последующими исследованиями, чем пропустить злокачественную опухоль.
Все определяется ценой ошибок. И вообще читай отсюда https://en.wikipedia.org/wiki/Confusion_matrix
Но есть и еще одна проблема. Hасколько точно обучающая выборка соответсвует генеральной совокупности — это тоже источник ошибок моделей.
Re[3]: идея для разработчиков облачных LLM: систематизация ошибок
Здравствуйте, Nuzhny, Вы писали:
N>А что не на учебник по арифметике ссылка? Ты давно мастером трюизмов стал?
Могу и на него.
Я бы не стал тебе доставать, если бы после своих кривых рассуждений выше ты привел бы ссылку, что людям читать и от какой печки танцевать, чтобы понимать эти все циферки с ошибками и точностями.
Re[5]: идея для разработчиков облачных LLM: систематизация ошибок
Здравствуйте, Vzhyk2, Вы писали:
V>Я бы не стал тебе доставать, если бы после своих кривых рассуждений выше ты привел бы ссылку, что людям читать и от какой печки танцевать, чтобы понимать эти все циферки с ошибками и точностями.
Рассказывай тогда уже, как матрица неточностей помогает с ошибками LLM.
И про обучающую выборку — бред. Она практически никогда не совпадает по своему распределению с генеральной совокупностью и не должна совпадать. В связке train/validation/test только от последней тестовой выборки ждут этого свойства. Распределение train и validation должно совпадать, туда пихают кучу искусственных данных и другой фигни.
Так что иди, читай учебники, что уж тут.
Re[6]: идея для разработчиков облачных LLM: систематизация ошибок
Здравствуйте, Nuzhny, Вы писали:
N>Рассказывай тогда уже, как матрица неточностей помогает с ошибками LLM.
Никак. Но она помогает понимать эти ошибки.
N>И про обучающую выборку — бред. Она практически никогда не совпадает по своему распределению с генеральной совокупностью и не должна совпадать. В связке train/validation/test только от последней тестовой выборки ждут этого свойства. Распределение train и validation должно совпадать, туда пихают кучу искусственных данных и другой фигни.
А после не удивляйся, что на датасете у тебя была точность 99%, а в диком мире стала 60%.
Re[7]: идея для разработчиков облачных LLM: систематизация ошибок