Здравствуйте,
Есть ли хорошая книжка по отладке сетей, если они не работают? А то в основном одна база.
Я читаю "Подход к пониманию глубоких сетей на основе метода кейсов" Микелуччи , но вдруг есть что получше
Просто собрал сетку — входных 500 выход 50 — работало нормально, с небольшим оверфитом ( но это можно тоже пофиксить)
но вот срезал выходные до 1 параметра — перестала учиться — потери падают, аккуратность не растет ... магия какая-то, должно было быть наоборот проще
можно, конечно, просто с параметрами поиграться (потери регуляризация инициализация и т.д.), но хотелось бы подкапотного понимания
TP>Здравствуйте, TP>Есть ли хорошая книжка по отладке сетей, если они не работают? А то в основном одна база. TP>Я читаю "Подход к пониманию глубоких сетей на основе метода кейсов" Микелуччи , но вдруг есть что получше
Блин. Для меня сети — это компьютерные сети. Ethernet, WiFi, свитчи-роутеры и прочий TCP/IP.
Смотрю, думаю, что это за глубокие сети такие. Оверфит какой-то неведомый. Наверное, я отстал от жизни.
Здравствуйте, The Passenger, Вы писали:
TP>Есть ли хорошая книжка по отладке сетей, если они не работают? А то в основном одна база.
Я не знаю такой, в основном и правда магия + список общих рецептов + множество экспериментов. Кто-то визуализирует промежуточные слои.
Я особо не занимался проблемой, но кажется, что можно почитать о том, как делается квантизация, дистиляция, прунинг. Всё это требует уже глубокого понимания принципов работы, приходится не только ставить эксперименты, но и разбираться в причинах удач и неудач.
Здравствуйте, Osaka, Вы писали:
TP>>Просто собрал сетку — входных 500 выход 50 — работало нормально O>В каком софте это делается? И какие практические задачи?
keras ... задачи — торговля акциями ... успехов особых нет, но по крайней мере, в отличие от меня, в минус не уходит
Здравствуйте, The Passenger, Вы писали:
TP>Просто собрал сетку — входных 500 выход 50 — работало нормально, с небольшим оверфитом ( но это можно тоже пофиксить) TP>но вот срезал выходные до 1 параметра — перестала учиться — потери падают, аккуратность не растет ... магия какая-то, должно было быть наоборот проще TP>можно, конечно, просто с параметрами поиграться (потери регуляризация инициализация и т.д.), но хотелось бы подкапотного понимания
Выход — это для задачи классификации? Для 1 параметра и для нескольких обычно разные функции потерь (лоссы) применяются. Например, Cross Entropy и Binary Cross Entropy
TP>Здравствуйте, TP>Есть ли хорошая книжка по отладке сетей, если они не работают? А то в основном одна база. TP>Я читаю "Подход к пониманию глубоких сетей на основе метода кейсов" Микелуччи , но вдруг есть что получше
TP>Просто собрал сетку — входных 500 выход 50 — работало нормально, с небольшим оверфитом ( но это можно тоже пофиксить) TP>но вот срезал выходные до 1 параметра — перестала учиться — потери падают, аккуратность не растет ... магия какая-то, должно было быть наоборот проще TP>можно, конечно, просто с параметрами поиграться (потери регуляризация инициализация и т.д.), но хотелось бы подкапотного понимания
TP>Спасибо
Проект OpenAI, занимающийся развитием общедоступных проектов в области искусственного интеллекта, опубликовал отладчик Transformer Debugger, предназначенный для анализа активации структур в языковых моделях машинного обучения при обработке тех или иных данных. Как и в традиционных отладчиках в Transformer Debugger поддерживает пошаговую навигацию по выводу моделей, трассировку и перехват определённой активности. В общем виде Transformer Debugger позволяет разобраться почему языковая модель в ответ на определённый запрос выводит один токен вместо другого или почему модель уделяет большее внимание определённым токенам в запросе. Код написан на языке Python и распространяется под лицензией MIT.
В состав входят следующие компоненты:
Neuron viewer — навигатор по отдельным компонентам модели, таким как MLP-нейроны, фокусы внимания и скрытые представления автокодировщиков.
Activation server — серверный бэкенд, взаимодействующий с разбираемой моделью и извлекающий данные для отладчика.
Models — библиотека для взаимодействия с языковыми моделями GPT-2 и используемыми в них автокодировщиками, обеспечивающая подстановку обработчиков для перехвата активаций.
Примеры активирующих наборов данных для MLP-нейронов, фокусов внимания и скрытых представлений автокодировщиков.