Информация об изменениях

Сообщение Re[3]: Слои от 16.05.2025 9:22

Изменено 16.05.2025 9:26 Nuzhny

Старый текст
Новый текст
Разница

Re[3]: Слои

Здравствуйте, Нomunculus, Вы писали:

Н>По поводу экспериментов. Качаю тут опенсорсные модели. Некоторые на 4090 тренятся до 7 часов. То есть захотел я 0.001 где-то сменить на 0.002. И вперед — еще 7 часов? Не, ясно что можно уменьшать количество эпох, разрешения, данные и прочее. Но это же рубит результат. Если я изменю 0.001 на 0.002 и это улучшит результат- где гарантия что это же изменение улучшит на другом количестве эпох и при другом разрешении картинок?

Могу только сказать, что 7 часов — это довольно быстро на таком слабом железе и простор для экспериментов. Гарантий никаких нет.

В целом, выделяют два типа людей:

1. Исследователи, которые придумывают что-то новое. Им необходимо хорошее образование в этой области, кандидатская будет плюсом (совсем не необходимое условие), нуждаются в хорошем суперкомпьютере/кластере.

2. Пользователи, которым надо взять готовую нейросеть, максимум поменять что-то по мелочи и решить конкрутную проблему. Тут решает не столько нейросеть и архитектура, сколько датасет. Это в основном просто программисты (в идеале), небольшое знание Питона, книжка/курсы по нейросетям.

Если ты заходишь в область со стороны пользователей, то, как мне кажется, надо:
— Как можно шире просто пользоваться, брать, обучать, потратить 1-2 недели на архитектуру. Просто приобрести широту взгляда и интуицию.
— Взять несколько базовых статей и реализовать самому в коде по статьям LeNet, AlexNet, ResNet, LSTM, U-Net etc. То есть повторить за исследователями для понимания тонкостей.

Всё, хватит, ты нормальный специалист, который может сделать продукт, понимая как оно устроено. Не надо думать, что нейросети — это что-то сильно простое, зачастую за видимой простотой лежат глубокие математически или физические модели, а не просто удачно подобранный стек слоём. Можно прочитать статью о диффузионных моделях, посчитать сколько там только выделенных формул (их 270). Многие не сложные, но понятно, что эту нейросеть вывели математически. Так просто из пользователей в исследователи без нормального понимания математики не перепрыгнуть.
Или взять ResNet — с одной стороны можно прочитать статью об её архитектуре, станет понятно как работают дополнительные связи — вроде всё понятно. С другой стороны, можно прочитать, что авторы вдохновлялись решением дифференциальных уравнений. Ну, типа, ок, мне как пользователю это ничего не даёт, не помогает её обучать или что-то менять.

Re[3]: Слои

Здравствуйте, Нomunculus, Вы писали:

Н>Ок. То есть в принципе приближенно и грубо любая задача решается одним слоем? Все остальное — улучшение и уточнение?

Это совсем грубо и только в теории. На практике, конечно, нет.

Н>По поводу экспериментов. Качаю тут опенсорсные модели. Некоторые на 4090 тренятся до 7 часов. То есть захотел я 0.001 где-то сменить на 0.002. И вперед — еще 7 часов? Не, ясно что можно уменьшать количество эпох, разрешения, данные и прочее. Но это же рубит результат. Если я изменю 0.001 на 0.002 и это улучшит результат- где гарантия что это же изменение улучшит на другом количестве эпох и при другом разрешении картинок?

Могу только сказать, что 7 часов — это довольно быстро на таком слабом железе и простор для экспериментов. Гарантий никаких нет.

В целом, выделяют два типа людей:

1. Исследователи, которые придумывают что-то новое. Им необходимо хорошее образование в этой области, кандидатская будет плюсом (совсем не необходимое условие), нуждаются в хорошем суперкомпьютере/кластере.

2. Пользователи, которым надо взять готовую нейросеть, максимум поменять что-то по мелочи и решить конкретную проблему. Тут решает не столько нейросеть и архитектура, сколько датасет. Это в основном просто программисты (в идеале), небольшое знание Питона, книжка/курсы по нейросетям.

Если ты заходишь в область со стороны пользователей, то, как мне кажется, надо:
— Как можно шире просто пользоваться, брать, обучать, потратить 1-2 недели на архитектуру. Просто приобрести широту взгляда и интуицию.
— Взять несколько базовых статей и реализовать самому в коде по статьям LeNet, AlexNet, ResNet, LSTM, U-Net etc. То есть повторить за исследователями для понимания тонкостей.

Всё, хватит, ты нормальный специалист, который может сделать продукт, понимая как оно устроено.

Но не надо думать, что нейросети — это что-то сильно простое, зачастую за видимой простотой лежат глубокие математически или физические модели, а не просто удачно подобранный стек слоём. Можно прочитать статью о диффузионных моделях, посчитать сколько там только выделенных формул (их 270). Многие не сложные, но понятно, что эту нейросеть вывели математически. Так просто из пользователей в исследователи без нормального понимания математики не перепрыгнуть.
Или взять ResNet — с одной стороны можно прочитать статью об её архитектуре, станет понятно как работают дополнительные связи — вроде всё понятно. С другой стороны, можно прочитать, что авторы вдохновлялись решением дифференциальных уравнений. Ну, типа, ок, мне как пользователю это ничего не даёт, не помогает её обучать или что-то менять.