идея для разработчиков облачных LLM: систематизация ошибок - Искусственный интеллект

идея для разработчиков облачных LLM: систематизация (и обработка, в т.ч. ручная) наиболее часто встречающихся ошибок (особенно которые решать ИИ самостоятельно всё никак научится не может)

«Марш девяток» Карпати: как инженерные ошибки подрывают надёжность ИИ-систем
https://www.ixbt.com/news/2026/03/09/marsh-devjatok-karpati-kak-inzhenernye-oshibki-podryvajut-nadjozhnost-iisistem.html

Даже 99% успешных операций ИИ недостаточно для реальных задач

По данным опроса McKinsey за 2025 год, более половины компаний, использующих ИИ, столкнулись с негативными последствиями из-за недостаточной надёжности, а треть — с ошибками, связанными с неточностью моделей. Поэтому переход от «первых девяток» к промышленной надёжности становится ключевым фактором для массового внедрения ИИ в бизнес-процессы.

ну чё, дело говорит — только надо как то стимулировать разработчиков подробно описывать, как возникающие проблемы (при использовании ИИ), так и то какими образом они были решены (подробно) ..

и в идеале чтобы облачная LLM самостоятельно переобучалась (и/или до обучалась) на этих данных, с отслеживанием (и репортами) о том сколько таких же (или схожих кейсов) — уже успешно решено (или ещё нет)

тогда можно будет сортирануть список по самым часто встречающимся ошибкам (схожим) которые ещё не решены (в автоматизированном режиме), и натравливая LLM на них с генерацией отсчётов о том как нейросеть предполагает их решать — выяснить в чём проблема (в ручном режиме и с чтением отчётов пользователей, о том как всё таки решена была проблема)

(и так пока все ошибки не рассосутся, от самых массовых до единичных — ну или хотя бы, главное шоб, список сокращался — хотя бы общее число удельное на единицу использования ИИ инструмента)

P.S.:

ну и комментами всё покрывать как в промышленной разработке (чтоб точно знать что где и куда делает код)

я про это уже писал, но идея с систематизацией наиболее часто встречающихся схожих (и т.п.) ошибок мне пока ещё кажется свежей

Здравствуйте, xma, Вы писали:

xma>

xma>Даже 99% успешных операций ИИ недостаточно для реальных задач

Это как с распознаванием лиц. Если у тебя система работает с точностью 99.99% процентов, то в московском метро (около 7 млн пассажиров в сутки) они будет ошибаться 700 раз в сутки. Кажется, что можно было бы ещё девяточку к точности накинуть.

В целом реальные системы имеют разные требования: если надо добиться не более 1% брака в продукции, например при сортировке яблок (реальный кейс), то камеру можно смело вешать над сортировщиком и убрать людей из процесса.
Если ИИ помогает врачам не пропустить опухоль, то лучше иметь больше ложных сработок, которые отсеит врач последующими исследованиями, чем пропустить злокачественную опухоль.

Здравствуйте, Nuzhny, Вы писали:

N>В целом реальные системы имеют разные требования: если надо добиться не более 1% брака в продукции, например при сортировке яблок (реальный кейс), то камеру можно смело вешать над сортировщиком и убрать людей из процесса.
N>Если ИИ помогает врачам не пропустить опухоль, то лучше иметь больше ложных сработок, которые отсеит врач последующими исследованиями, чем пропустить злокачественную опухоль.
Все определяется ценой ошибок. И вообще читай отсюда
https://en.wikipedia.org/wiki/Confusion_matrix
Но есть и еще одна проблема. Hасколько точно обучающая выборка соответсвует генеральной совокупности — это тоже источник ошибок моделей.

Здравствуйте, Vzhyk2, Вы писали:

V>Все определяется ценой ошибок. И вообще читай отсюда

А что не на учебник по арифметике ссылка? Ты давно мастером трюизмов стал?

Здравствуйте, Nuzhny, Вы писали:

N>А что не на учебник по арифметике ссылка? Ты давно мастером трюизмов стал?
Могу и на него.
Я бы не стал тебе доставать, если бы после своих кривых рассуждений выше ты привел бы ссылку, что людям читать и от какой печки танцевать, чтобы понимать эти все циферки с ошибками и точностями.

Здравствуйте, Vzhyk2, Вы писали:

V>Я бы не стал тебе доставать, если бы после своих кривых рассуждений выше ты привел бы ссылку, что людям читать и от какой печки танцевать, чтобы понимать эти все циферки с ошибками и точностями.

Рассказывай тогда уже, как матрица неточностей помогает с ошибками LLM.

И про обучающую выборку — бред. Она практически никогда не совпадает по своему распределению с генеральной совокупностью и не должна совпадать. В связке train/validation/test только от последней тестовой выборки ждут этого свойства. Распределение train и validation должно совпадать, туда пихают кучу искусственных данных и другой фигни.
Так что иди, читай учебники, что уж тут.

Здравствуйте, Nuzhny, Вы писали:

N>Рассказывай тогда уже, как матрица неточностей помогает с ошибками LLM.
Никак. Но она помогает понимать эти ошибки.

N>И про обучающую выборку — бред. Она практически никогда не совпадает по своему распределению с генеральной совокупностью и не должна совпадать. В связке train/validation/test только от последней тестовой выборки ждут этого свойства. Распределение train и validation должно совпадать, туда пихают кучу искусственных данных и другой фигни.
А после не удивляйся, что на датасете у тебя была точность 99%, а в диком мире стала 60%.

	От:	xma
	Дата:	09.03.26 23:37
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	10.03.26 08:47
Оценка:

	От:	Vzhyk2
	Дата:	10.03.26 16:18
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	10.03.26 20:39
Оценка:

	От:	Vzhyk2
	Дата:	11.03.26 05:34
	Оценка: