отладка сетей
От: The Passenger Голландия  
Дата: 05.03.24 08:25
Оценка:
Здравствуйте,
Есть ли хорошая книжка по отладке сетей, если они не работают? А то в основном одна база.
Я читаю "Подход к пониманию глубоких сетей на основе метода кейсов" Микелуччи , но вдруг есть что получше

Просто собрал сетку — входных 500 выход 50 — работало нормально, с небольшим оверфитом ( но это можно тоже пофиксить)
но вот срезал выходные до 1 параметра — перестала учиться — потери падают, аккуратность не растет ... магия какая-то, должно было быть наоборот проще
можно, конечно, просто с параметрами поиграться (потери регуляризация инициализация и т.д.), но хотелось бы подкапотного понимания

Спасибо
Весь мир — Кремль, а люди в нем — агенты
Отредактировано 05.03.2024 8:26 The Passenger . Предыдущая версия .
Re: отладка сетей
От: Doom100500 Израиль  
Дата: 06.03.24 07:37
Оценка:
Здравствуйте, The Passenger, Вы писали:

TP>магия какая-то


Это и есть ответ. А так надо математику учить серьёзно.
Спасибо за внимание
Re: отладка сетей
От: Pzz Россия https://github.com/alexpevzner
Дата: 06.03.24 07:53
Оценка: :)
Здравствуйте, The Passenger, Вы писали:


TP>Здравствуйте,

TP>Есть ли хорошая книжка по отладке сетей, если они не работают? А то в основном одна база.
TP>Я читаю "Подход к пониманию глубоких сетей на основе метода кейсов" Микелуччи , но вдруг есть что получше

Блин. Для меня сети — это компьютерные сети. Ethernet, WiFi, свитчи-роутеры и прочий TCP/IP.

Смотрю, думаю, что это за глубокие сети такие. Оверфит какой-то неведомый. Наверное, я отстал от жизни.

И только потом дошло, что ты про нейронки
Re: отладка сетей
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 06.03.24 13:05
Оценка: 4 (1)
Здравствуйте, The Passenger, Вы писали:

TP>Есть ли хорошая книжка по отладке сетей, если они не работают? А то в основном одна база.


Я не знаю такой, в основном и правда магия + список общих рецептов + множество экспериментов. Кто-то визуализирует промежуточные слои.
Я особо не занимался проблемой, но кажется, что можно почитать о том, как делается квантизация, дистиляция, прунинг. Всё это требует уже глубокого понимания принципов работы, приходится не только ставить эксперименты, но и разбираться в причинах удач и неудач.
Re: отладка сетей
От: Osaka  
Дата: 10.03.24 12:25
Оценка:
TP>Просто собрал сетку — входных 500 выход 50 — работало нормально
В каком софте это делается? И какие практические задачи?
Re[2]: отладка сетей
От: The Passenger Голландия  
Дата: 10.03.24 19:17
Оценка:
Здравствуйте, Osaka, Вы писали:

TP>>Просто собрал сетку — входных 500 выход 50 — работало нормально

O>В каком софте это делается? И какие практические задачи?

keras ... задачи — торговля акциями ... успехов особых нет, но по крайней мере, в отличие от меня, в минус не уходит
Весь мир — Кремль, а люди в нем — агенты
Re: отладка сетей
От: Michael7 Россия  
Дата: 12.03.24 11:21
Оценка: 4 (1)
Здравствуйте, The Passenger, Вы писали:

TP>Просто собрал сетку — входных 500 выход 50 — работало нормально, с небольшим оверфитом ( но это можно тоже пофиксить)

TP>но вот срезал выходные до 1 параметра — перестала учиться — потери падают, аккуратность не растет ... магия какая-то, должно было быть наоборот проще
TP>можно, конечно, просто с параметрами поиграться (потери регуляризация инициализация и т.д.), но хотелось бы подкапотного понимания

Выход — это для задачи классификации? Для 1 параметра и для нескольких обычно разные функции потерь (лоссы) применяются. Например, Cross Entropy и Binary Cross Entropy
Re: отладка сетей
От: BlackEric http://black-eric.lj.ru
Дата: 16.03.24 12:05
Оценка:
Здравствуйте, The Passenger, Вы писали:


TP>Здравствуйте,

TP>Есть ли хорошая книжка по отладке сетей, если они не работают? А то в основном одна база.
TP>Я читаю "Подход к пониманию глубоких сетей на основе метода кейсов" Микелуччи , но вдруг есть что получше

TP>Просто собрал сетку — входных 500 выход 50 — работало нормально, с небольшим оверфитом ( но это можно тоже пофиксить)

TP>но вот срезал выходные до 1 параметра — перестала учиться — потери падают, аккуратность не растет ... магия какая-то, должно было быть наоборот проще
TP>можно, конечно, просто с параметрами поиграться (потери регуляризация инициализация и т.д.), но хотелось бы подкапотного понимания

TP>Спасибо


Open AI выпустила какой-то отладчик: Проект OpenAI открыл Transformer Debugger, отладчик для моделей машинного обучения

Проект OpenAI, занимающийся развитием общедоступных проектов в области искусственного интеллекта, опубликовал отладчик Transformer Debugger, предназначенный для анализа активации структур в языковых моделях машинного обучения при обработке тех или иных данных. Как и в традиционных отладчиках в Transformer Debugger поддерживает пошаговую навигацию по выводу моделей, трассировку и перехват определённой активности. В общем виде Transformer Debugger позволяет разобраться почему языковая модель в ответ на определённый запрос выводит один токен вместо другого или почему модель уделяет большее внимание определённым токенам в запросе. Код написан на языке Python и распространяется под лицензией MIT.

В состав входят следующие компоненты:

Neuron viewer — навигатор по отдельным компонентам модели, таким как MLP-нейроны, фокусы внимания и скрытые представления автокодировщиков.
Activation server — серверный бэкенд, взаимодействующий с разбираемой моделью и извлекающий данные для отладчика.
Models — библиотека для взаимодействия с языковыми моделями GPT-2 и используемыми в них автокодировщиками, обеспечивающая подстановку обработчиков для перехвата активаций.
Примеры активирующих наборов данных для MLP-нейронов, фокусов внимания и скрытых представлений автокодировщиков.


GitHub: Transformer Debugger

Сам не пробовал ещё, только прочитал новость.
https://github.com/BlackEric001
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.