отладка сетей - Искусственный интеллект

Здравствуйте,
Есть ли хорошая книжка по отладке сетей, если они не работают? А то в основном одна база.
Я читаю "Подход к пониманию глубоких сетей на основе метода кейсов" Микелуччи , но вдруг есть что получше

Просто собрал сетку — входных 500 выход 50 — работало нормально, с небольшим оверфитом ( но это можно тоже пофиксить)
но вот срезал выходные до 1 параметра — перестала учиться — потери падают, аккуратность не растет ... магия какая-то, должно было быть наоборот проще
можно, конечно, просто с параметрами поиграться (потери регуляризация инициализация и т.д.), но хотелось бы подкапотного понимания

Спасибо

Здравствуйте, The Passenger, Вы писали:

TP>магия какая-то

Это и есть ответ. А так надо математику учить серьёзно.

Здравствуйте, The Passenger, Вы писали:

TP>Здравствуйте,
TP>Есть ли хорошая книжка по отладке сетей, если они не работают? А то в основном одна база.
TP>Я читаю "Подход к пониманию глубоких сетей на основе метода кейсов" Микелуччи , но вдруг есть что получше

Блин. Для меня сети — это компьютерные сети. Ethernet, WiFi, свитчи-роутеры и прочий TCP/IP.

Смотрю, думаю, что это за глубокие сети такие. Оверфит какой-то неведомый. Наверное, я отстал от жизни.

И только потом дошло, что ты про нейронки

Здравствуйте, The Passenger, Вы писали:

TP>Есть ли хорошая книжка по отладке сетей, если они не работают? А то в основном одна база.

Я не знаю такой, в основном и правда магия + список общих рецептов + множество экспериментов. Кто-то визуализирует промежуточные слои.
Я особо не занимался проблемой, но кажется, что можно почитать о том, как делается квантизация, дистиляция, прунинг. Всё это требует уже глубокого понимания принципов работы, приходится не только ставить эксперименты, но и разбираться в причинах удач и неудач.

TP>Просто собрал сетку — входных 500 выход 50 — работало нормально
В каком софте это делается? И какие практические задачи?

Здравствуйте, Osaka, Вы писали:

TP>>Просто собрал сетку — входных 500 выход 50 — работало нормально
O>В каком софте это делается? И какие практические задачи?

keras ... задачи — торговля акциями ... успехов особых нет, но по крайней мере, в отличие от меня, в минус не уходит

Здравствуйте, The Passenger, Вы писали:

TP>Просто собрал сетку — входных 500 выход 50 — работало нормально, с небольшим оверфитом ( но это можно тоже пофиксить)
TP>но вот срезал выходные до 1 параметра — перестала учиться — потери падают, аккуратность не растет ... магия какая-то, должно было быть наоборот проще
TP>можно, конечно, просто с параметрами поиграться (потери регуляризация инициализация и т.д.), но хотелось бы подкапотного понимания

Выход — это для задачи классификации? Для 1 параметра и для нескольких обычно разные функции потерь (лоссы) применяются. Например, Cross Entropy и Binary Cross Entropy

Здравствуйте, The Passenger, Вы писали:

TP>Здравствуйте,
TP>Есть ли хорошая книжка по отладке сетей, если они не работают? А то в основном одна база.
TP>Я читаю "Подход к пониманию глубоких сетей на основе метода кейсов" Микелуччи , но вдруг есть что получше

TP>Просто собрал сетку — входных 500 выход 50 — работало нормально, с небольшим оверфитом ( но это можно тоже пофиксить)
TP>но вот срезал выходные до 1 параметра — перестала учиться — потери падают, аккуратность не растет ... магия какая-то, должно было быть наоборот проще
TP>можно, конечно, просто с параметрами поиграться (потери регуляризация инициализация и т.д.), но хотелось бы подкапотного понимания

TP>Спасибо

Open AI выпустила какой-то отладчик: Проект OpenAI открыл Transformer Debugger, отладчик для моделей машинного обучения

Проект OpenAI, занимающийся развитием общедоступных проектов в области искусственного интеллекта, опубликовал отладчик Transformer Debugger, предназначенный для анализа активации структур в языковых моделях машинного обучения при обработке тех или иных данных. Как и в традиционных отладчиках в Transformer Debugger поддерживает пошаговую навигацию по выводу моделей, трассировку и перехват определённой активности. В общем виде Transformer Debugger позволяет разобраться почему языковая модель в ответ на определённый запрос выводит один токен вместо другого или почему модель уделяет большее внимание определённым токенам в запросе. Код написан на языке Python и распространяется под лицензией MIT.

В состав входят следующие компоненты:

Neuron viewer — навигатор по отдельным компонентам модели, таким как MLP-нейроны, фокусы внимания и скрытые представления автокодировщиков.
Activation server — серверный бэкенд, взаимодействующий с разбираемой моделью и извлекающий данные для отладчика.
Models — библиотека для взаимодействия с языковыми моделями GPT-2 и используемыми в них автокодировщиками, обеспечивающая подстановку обработчиков для перехвата активаций.
Примеры активирующих наборов данных для MLP-нейронов, фокусов внимания и скрытых представлений автокодировщиков.

GitHub: Transformer Debugger

Сам не пробовал ещё, только прочитал новость.

	От:	The Passenger
	Дата:	05.03.24 08:25
	Оценка:

	От:	Doom100500
	Дата:	06.03.24 07:37
	Оценка:

От:	Pzz	https://github.com/alexpevzner
Дата:	06.03.24 07:53
Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	06.03.24 13:05
Оценка:	4 (1)

	От:	Osaka
	Дата:	10.03.24 12:25
	Оценка:

От:	BlackEric	http://black-eric.lj.ru
Дата:	16.03.24 12:05
Оценка: