Будущее нейросетей - индивидуально обученные нейросети - Компьютерные священные войны

Здравствуйте, Shmj, Вы писали:

S>Предвижу в ближайшем будущем потребность чуть ли не на каждый проект иметь индивидуально обученную сеть для него. Вот как сейчас имеем Wiki для проекта — так и нейросетка будет для каждого проекта. И это потребует доп. вычислительных мощностей для каждой конторы.

Мне кажется, что такая нейронка — это плохая нейронка. Не надо обучаться на конкретном проекте, его надо уметь понимать без переобучения сети примерно также, как general сети сейчас могу суммаризировать статьи. То есть код проекта должен помещаться в память нейросети и не более того.

Здравствуйте, Shmj, Вы писали:

S>Предвижу в ближайшем будущем потребность чуть ли не на каждый проект иметь индивидуально обученную сеть для него. Вот как сейчас имеем Wiki для проекта — так и нейросетка будет для каждого проекта. И это потребует доп. вычислительных мощностей для каждой конторы.
Уже есть. Мелкософт предлагает AI помощников для интернет-магазионв, дообученных на данных самого магазина. Там правда есть косяки с этим, думаю систему ее долго будут дорабаотывать.

Естественно внутрикорпоративное использование таки дообученных на локаьных данных моделях тоже предполагается. Скормишь ей базу знаний организации, она будет не только имитацией полнотекстового поиска, но и сможет объединять знания из разных статей.

S>Будет похоже на принятие нового члена в команду — ему потребуется время на то, чтобы "въехать в проект". Ну и по затратам будет эквивалентно содержанию одного работника.
А вот это сомнительно. Вики с полнотекстовым поиском не то, чтобы сильно помогает на практике. И вообще "знания" != "информация", точной формулы перевода второго в первое пока нет и не факт что АИ исправит ситуацию, особенно с его способностями выдумывать то, чего нет. Это выдумывание заложено в архитектуру трансформеров и победить "правилами" не получится.

Сейчас в основном обучают нейросети для масс, а не для конкретно каждого случая. И в основном юзают шаред мощности, не так много народа запускают их на своем железе. Даже корп. пользователи могут покупать подписки на OpenAI или там Copilot, а не запускать у себя на своих серверах.

Есть магазины моделей, но принцип тот же — одна модель для многих пользователей.

Предвижу в ближайшем будущем потребность чуть ли не на каждый проект иметь индивидуально обученную сеть для него. Вот как сейчас имеем Wiki для проекта — так и нейросетка будет для каждого проекта. И это потребует доп. вычислительных мощностей для каждой конторы.

Нейросетка будет знать все особенности конкретно вашего проекта, сможет глубоко проанализировать всю кодовую базу и все с этим связанное — возможно на анализ и формирование модели уйдет несколько дней. Зато потом сможет по требованиям вносить изменения в код.

Будет похоже на принятие нового члена в команду — ему потребуется время на то, чтобы "въехать в проект". Ну и по затратам будет эквивалентно содержанию одного работника.

Кто что скажет?

Здравствуйте, Vzhyk2, Вы писали:

V>Мда, чатгпт логичнее тебя высказывается. Ты же просто какой генератор случайных фраз.

Но я умею страдать — меня можно обидеть. А GPT, не смотря на все красивости в речи и эрудированность — не умеет наслаждаться и страдать.

S>Зато потом сможет по требованиям вносить изменения в код.
Любой редактор кода умеет "по требованиям вносить изменения в код". Даже виндовый блокнот.

Хочу видеть "ИИ", который бы слушая многочасовую болтовню пользователей, задавал уточняющие вопросы, предлагал технические решения и предупреждал о некорректных изменениях.
А еще он сразу должен подумать о доступах и лицензиях, о непубличных спецификациях и багах в сторонних компонентах.

S>Кто что скажет?
Тот, кому хотя бы раз приходилось всерьез разбираться в сгенерированном коде с целью оптимизации и прочих костылей, поймет.
Если ковырять сгенерированный ИИ код, только за много-много денег!

Здравствуйте, Shmj, Вы писали:

S>Текущая парадигма позволяет обработать 1 экран кода,

Уже 128k токенов — четырёхкратный скачок за год. Дальше больше.

S>а нужно — сотни мегабайт кода.

Необязательно каждую строчку кода держать в контексте. Можно загрузить общую структуру, и дать ему возможность запрашивать подгрузку/пэйджинг файлов по потребности, то есть прямо инструктируешь что если нужен файл foo.cpp, скажи ключевую фразу read foo.cpp

То есть решение задачи произойдет не за один проход, а за много, с подгрузкой и выгрузкой кода в/из контекста.
Точно также работали и старые компьютеры — в оперативную память мало что помешалось и поэтому использовали оверлеи и т.п.

Вот ты когда сам над проектом работаешь — сколько кода у тебя непосредственно в голове, и сколько перед глазами? Уж сильно меньше 128k токенов. Но при этом ты всегда можешь посмотреть на структуру проекта и найти нужный файл.

Здравствуйте, Shmj, Вы писали:

S>Кто что скажет?

уже делают, например используя transfer learning. Когда к выходу генерализованной сети, ранее обученной гигантами вроде Гугла, добавляют слои, которые обучаешь уже ты сам под свою задачу. Выходит дешевле и быстрее.

Здравствуйте, Shmj, Вы писали:

S>Кто что скажет?
Что уже лет 15-20 как нейросетки достаточно развились их не только лишь все дообучают на свои кастомные датасеты.
И да, если кастомный датасет большой или сетка большая, то нужно или покупать или арендовать мощное железо для оного.

Здравствуйте, Vzhyk2, Вы писали:

V>Что уже лет 15-20 как нейросетки достаточно развились их не только лишь все дообучают на свои кастомные датасеты.
V>И да, если кастомный датасет большой или сетка большая, то нужно или покупать или арендовать мощное железо для оного.

Но только на проекты, которые непосредственно связаны с анализом данных.

Я о том, что нейросетка будет типа сотрудника — разработчика ПО, дизайнера и т.д. Вот есть у вас кодовая база некая — на ней обучат нейросеть и она будет типа робо-сотрудника.

Здравствуйте, Nuzhny, Вы писали:

N>Мне кажется, что такая нейронка — это плохая нейронка. Не надо обучаться на конкретном проекте, его надо уметь понимать без переобучения сети примерно также, как general сети сейчас могу суммаризировать статьи. То есть код проекта должен помещаться в память нейросети и не более того.

Но часто для проекта — требуется глубокое погружение. Даже человеку нужно несколько месяцев чтобы въехать.

Оно то хорошо универсального всезнайку — но так не работает. И код проекта — это обычно гигабайты, ну сотни мегабайт — не поместится все в памяти.

Здравствуйте, Shmj, Вы писали:

S>Предвижу в ближайшем будущем потребность чуть ли не на каждый проект иметь индивидуально обученную сеть для него. Вот как сейчас имеем Wiki для проекта — так и нейросетка будет для каждого проекта. И это потребует доп. вычислительных мощностей для каждой конторы.

Это не будущие, а прошлое и настоящие. И нужно это только из-за технических ограничений.
С увеличением размера контекста, силы интеллекта, и с улучшением технологий свопинга в и из ~~ram~~контекста (vector db и прочее), необходимость в нейронках заточенных под проект (в плане перестройки весов) — отпадёт, а вся заточка будет происходит инструкциями непосредственно в контекстном окне, в котором будет также находится весь код проекта (либо эквивалент в виде свопинга).

Здравствуйте, Shmj, Вы писали:

S>Но только на проекты, которые непосредственно связаны с анализом данных.
S>Я о том, что нейросетка будет типа сотрудника — разработчика ПО, дизайнера и т.д. Вот есть у вас кодовая база некая — на ней обучат нейросеть и она будет типа робо-сотрудника.
Мда, чатгпт логичнее тебя высказывается. Ты же просто какой генератор случайных фраз.

Ну в Chat GPT есть некий пролог, который ты можешь настраивать перед началом диалога. Т.н. промпт. Который и настраивает нейросеть под конкретный диалог. Для этого ничего обучать не надо. Я бы предположил, что скорей в эту сторону будет развитие, т.к. специалистов по нейросетям практически не существует, а промпт писать может кто угодно.

Здравствуйте, vsb, Вы писали:

vsb>Ну в Chat GPT есть некий пролог, который ты можешь настраивать перед началом диалога. Т.н. промпт. Который и настраивает нейросеть под конкретный диалог. Для этого ничего обучать не надо. Я бы предположил, что скорей в эту сторону будет развитие, т.к. специалистов по нейросетям практически не существует, а промпт писать может кто угодно.

Но модели то продают — не столько сложна наука обучать и готовить модели.

Здравствуйте, Shmj, Вы писали:

S>Но часто для проекта — требуется глубокое погружение. Даже человеку нужно несколько месяцев чтобы въехать.

Пока не вижу проблем и противоречий.

S>Оно то хорошо универсального всезнайку — но так не работает. И код проекта — это обычно гигабайты, ну сотни мегабайт — не поместится все в памяти.

Пока тоже не вижу проблем. Но я и не вижу задач. Вполне можно представить проект иерархично и подгружать в контекст конкретную часть, держа в нём же общую иерархию. Это называется абстракцией. Примерно так ЧатГПТ пишет диплом, который не помещается в контекст сейчас: сначала тема, потом содержание, потом, опускаясь по иерархии вниз, разворачиваем части, главы, параграфы.

Здравствуйте, Nuzhny, Вы писали:

S>>Оно то хорошо универсального всезнайку — но так не работает. И код проекта — это обычно гигабайты, ну сотни мегабайт — не поместится все в памяти.

N>Пока тоже не вижу проблем. Но я и не вижу задач. Вполне можно представить проект иерархично и подгружать в контекст конкретную часть, держа в нём же общую иерархию. Это называется абстракцией. Примерно так ЧатГПТ пишет диплом, который не помещается в контекст сейчас: сначала тема, потом содержание, потом, опускаясь по иерархии вниз, разворачиваем части, главы, параграфы.

Но в таком случае контекст в голове человека — он лишь по мелочи может использовать нейросеть. А хотелось бы чтобы контекст и полное видение проекта было в нейросети — чтобы она могла сама дописывать новые модули в проекте по словесному описанию.

Здравствуйте, Shmj, Вы писали:

S>Кто что скажет?
Скажу, что специализированная midjourney уже выдает потрясающие результаты. Вероятно, с развитием НС предстоит большая конкуренция кормовой базы (пользователей) за место под солнцем. Немного пугает.

Здравствуйте, Shmj, Вы писали:

S>А хотелось бы чтобы контекст и полное видение проекта было в нейросети

Ну представь что размер контекста стал таким, что в него помещается весь проект.
В таком случае перенастройка весов не нужна. Достаточно загрузить проект в контекст

Здравствуйте, Evgeny.Panasyuk, Вы писали:

EP>Ну представь что размер контекста стал таким, что в него помещается весь проект.
EP>В таком случае перенастройка весов не нужна. Достаточно загрузить проект в контекст

Пока еще до этого далеко. Весь проект с исходниками, документацией, особенностями сферы — это гигабайты активных связанных данных.

Здравствуйте, Shmj, Вы писали:

S>Но в таком случае контекст в голове человека — он лишь по мелочи может использовать нейросеть. А хотелось бы чтобы контекст и полное видение проекта было в нейросети — чтобы она могла сама дописывать новые модули в проекте по словесному описанию.

Не надо контекст в голове человека. ЯП — это формальная штука, которую вполне однозначно парсят компиляторы. Соответственно, они тебе сами, без всяких нейросетей могут сгенерировать все необходимые абстракции на уровне интерфейсов. Загрузить его не будет проблемой.

Здравствуйте, Nuzhny, Вы писали:

N>Не надо контекст в голове человека. ЯП — это формальная штука, которую вполне однозначно парсят компиляторы. Соответственно, они тебе сами, без всяких нейросетей могут сгенерировать все необходимые абстракции на уровне интерфейсов. Загрузить его не будет проблемой.

Текущая парадигма позволяет обработать 1 экран кода, а нужно — сотни мегабайт кода.

Здравствуйте, Shmj, Вы писали:

S>Текущая парадигма позволяет обработать 1 экран кода, а нужно — сотни мегабайт кода.

Экран кода — это мало, объём контекста у него намного больше. Ты что-то путаешь.

GPT-4 имеет максимальный размер токенов 32 768 — это 215, если вам интересно, почему число выглядит знакомым. Это примерно соответствует 64 000 словам или 50 страницам текста — достаточно для целой пьесы или рассказа.

Здравствуйте, Nuzhny, Вы писали:

N>

N>GPT-4 имеет максимальный размер токенов 32 768 — это 215, если вам интересно, почему число выглядит знакомым. Это примерно соответствует 64 000 словам или 50 страницам текста — достаточно для целой пьесы или рассказа.

А что если нужно 5 млн. страниц текста?

Здравствуйте, Shmj, Вы писали:

S>А что если нужно 5 млн. страниц текста?

Я тебе уже сказал, что для этого нужно — абстракция и декомпозиция. В принципе, то же самое, что делает человек для себя и как он делает это в связке с ЧатГПТ. Абстракцию и декомпозицию кода нейросетями делать не нужно, потому как это умеют делать компиляторы с начала времён. Граф объектов — пожалуйста.

Здравствуйте, Nuzhny, Вы писали:
N>Экран кода — это мало, объём контекста у него намного больше. Ты что-то путаешь.
N>

N>GPT-4 имеет максимальный размер токенов 32 768 — это 215, если вам интересно, почему число выглядит знакомым. Это примерно соответствует 64 000 словам или 50 страницам текста — достаточно для целой пьесы или рассказа.

Не 215, а 2¹⁵. Не уподобляйтесь газетчикам, поправляйте форматирование при копировании!

Здравствуйте, namespace, Вы писали:

N>Если ковырять сгенерированный ИИ код, только за много-много денег!

А не надо его самому ковырять, можешь попросить ИИ всё прожевать и объяснить что к чему, да ещё составить документацию с диаграммами.

Здравствуйте, Sinclair, Вы писали:

N>>

N>>GPT-4 имеет максимальный размер токенов 32 768 — это 215, если вам интересно, почему число выглядит знакомым. Это примерно соответствует 64 000 словам или 50 страницам текста — достаточно для целой пьесы или рассказа.

S>Не 215, а 2¹⁵. Не уподобляйтесь газетчикам, поправляйте форматирование при копировании!

Мне больше интересно как у них из 32768 токенов получилось 64000 слов?

... << RSDN@Home 1.3.110 alpha 5 rev. 62>>

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	13.01.24 08:57
Оценка:	+2

От:	gandjustas	http://blog.gandjustas.ru/
Дата:	13.01.24 09:11
Оценка:	1 (1)

	От:	Shmj
	Дата:	13.01.24 00:27
	Оценка:	+1

	От:	Shmj
	Дата:	13.01.24 13:09
	Оценка:

	От:	namespace
	Дата:	15.01.24 12:25
	Оценка:	+1

	От:	Evgeny.Panasyuk
	Дата:	15.01.24 13:17
	Оценка:	+1

От:	Sinclair	https://github.com/evilguest/
Дата:	15.01.24 11:57
Оценка: