Мы оценивали Devin на SWE-bench, сложном тесте, который требует от агентов решать реальные проблемы GitHub, обнаруженные в проектах с открытым исходным кодом, таких как Django и scikit-learn.
Девин правильно решает 13,86%* комплексных проблем, что намного превышает предыдущий уровень в 1,96%. Даже если предоставить точные файлы для редактирования, лучшие предыдущие модели могут решить только 4,80% проблем.
Скрытый текст
*Девин оценивался на случайной 25% выборке набора данных. Девину не требовалась помощь, тогда как всем остальным моделям была оказана помощь (то есть модели было указано, какие именно файлы необходимо редактировать).
Cognition снабдила Devin необходимыми инструментами разработчика для органичной интеграции в существующей рабочие процессы. Компания перечислила основные возможности нейросети:
адаптация к новым технологиям — Devin быстро осваивает незнакомые инструменты, просто читая документацию;
комплексная разработка приложений — ИИ создаёт и развёртывает полнофункциональные веб-приложения, добавляя новые функции по мере поступления отзывов от пользователей;
автономное обнаружение ошибок — Devin выявляет, исправляет и отлаживает проблемы в коде, выступая полноценным участником проектов;
обучение ИИ — нейросеть производит установку и настройку больших языковых моделей на основе инструкций из исследовательских репозиториев.
Новую нейросеть протестировали журналисты из Bloomberg и остались довольны, отметив, что новинка способна на куда большее, чем прежние ИИ-помощники для программистов. Devin сделал для них полноценный сайт-каталог с ресторанами Сиднея по простому текстовому запросу.
S>Вы на какой помойке жить планируете?
AI надо было также научить подробные комментарии к коду писать, иначе кто в этих тоннах говен разбираться будет ? а вообще любопытно, но не для критической инфраструктуры, а для каких нить игрушек или сайтегов когда то в будущем может и взлетит .. или например для (быстрого) нахождения (логических) ошибок в коде
вообщем прогресс таки прёт семимильным шагами у AI-кодерков, а мне тут ранее с пеной у рта доказывали что де "это невозможно и вообще я в программировании ничего не понимаю" (а также привет 6G скептикам, там тоже прогресс идёт хороший)
scf>В AI разработчиков не очень верю, а вот AI ревьювер выглядит уже достижимой целью.
И не задерживаясь на этой должности, сразу AI-тимлид. А тряских существ будут брать исключительно на низовые должности наладчиков за полставки.
Здравствуйте, xma, Вы писали:
xma>Девин правильно решает 13,86%* комплексных проблем, что намного превышает предыдущий уровень в 1,96%. Даже если предоставить точные файлы для редактирования, лучшие предыдущие модели могут решить только 4,80% проблем.
Зачем нужен инженер-разработчик ПО, который решает 13.86% задач?
Здравствуйте, SkyDance, Вы писали: SD>Затем, что при этом создается столько (ненужного) кода, что нужно будет нанять еще 3 кожаных мешка, чтобы они поняли, что там происходит.
представляю себе как ИИ будет что-то делать по идеологии "yes-sir":
— Devin, нам нужна новая фича — уведомление пользователей о новых товарах, которые могут быть интересными
— Да, конечно, вот код
— Давай раскатаем в тестовое окружение
— Ты можешь ее проверить?
— Да, конечно, все отлично
спустя время
— Но Devin, фича не работает, сайт просто падает и все
— Да, конечно, сейчас поправлю
— Devin, ты же сказал, что все работает
— Да, так точно, все работает
— Devin, ты поправил?
— Да, можно заливать
— Заливай в тестовое окружение, я в этот раз сам проверю
— Залито
— devin, оно не залито. ты чем там вообще занимаешься? только о работе отчитываешься?
Здравствуйте, so5team, Вы писали: S>>Вы на какой помойке жить планируете? S>А могли бы вы поделиться своими планами на случай пришествия ИИ? S>Или вы уже здесь?
а он поди на каком-то пособии сидит и так надеется до старости дотянуть ))
Здравствуйте, so5team, Вы писали:
S>>Вы на какой помойке жить планируете? S>А могли бы вы поделиться своими планами на случай пришествия ИИ?
Если настоящий полноценный ИИ — то изменится жизнь всех людей. Он же не только код писать будет — но и вообще всю интеллектуальную работу, решит все проблемы.
Можно будет попросить этот ИИ разработать прямоходящих роботов и написать прогу, чтобы они могли выполнять все виды сантехнических и прочих работ. В чем проблема? Тогда и сантехники станут не нужны.
Если как сейчас — то это, можно сказать, продвинутая версия поисковика. Поисковик 2.0, скажем так. Он может написать игру жизнь, но, по сути, и раньше мы могли найти исходники и скачать готовую игру жизнь, пусть и занимало больше времени.
Здравствуйте, __kot2, Вы писали:
__>а он поди на каком-то пособии сидит и так надеется до старости дотянуть ))
Мне никаких пособий и помощи не давали. Никто.
Вернее Украина дала 6 тыс. грн. за то что я налог платил — там всем давали, кто платил налоги. Это примерно 200 долларов было летом 2002 года. После этого — ни копейки помощи. Болгарскую помощь тоже не получал, т.к. там слишком много волокиты (там единоразово давали около 150 евро на человека).
Здравствуйте, Shmj, Вы писали:
S>>>Вы на какой помойке жить планируете? S>>А могли бы вы поделиться своими планами на случай пришествия ИИ?
S>Если настоящий полноценный ИИ — то изменится жизнь всех людей. Он же не только код писать будет — но и вообще всю интеллектуальную работу, решит все проблемы.
S>Можно будет попросить этот ИИ разработать прямоходящих роботов и написать прогу, чтобы они могли выполнять все виды сантехнических и прочих работ. В чем проблема? Тогда и сантехники станут не нужны.
S>Если как сейчас — то это, можно сказать, продвинутая версия поисковика. Поисковик 2.0, скажем так. Он может написать игру жизнь, но, по сути, и раньше мы могли найти исходники и скачать готовую игру жизнь, пусть и занимало больше времени.
Поток (очередной) бреда (очередного) увидел. Планов не увидел.
Или ваши планы -- это попросить ChatGPT версии N точка ноль разработать прямоходящих роботов для замены сантехников?
PS. Ваши слова были названы бредом не потому, что там попытки предсказать будущее. А потому, что попытки эти убого и бессвязно сформулированы и не имеют отношения к просьбе поделиться своими планами.
Здравствуйте, so5team, Вы писали:
S>Или ваши планы -- это попросить ChatGPT версии N точка ноль разработать прямоходящих роботов для замены сантехников?
Не только сантехников — но и всех других специалистов ручного труда. Пусть напишет прогу, чтобы робот выполнял все виды работ.
Получается нужно только сделать робота — с механической рукой — а дальше прогу напишет этот GPT и робот сможет выполнять все. Причем как сделать робота — тоже ведь GPT N в деталях скажет.
Но чего-то сдается что он этого сделать не сможет — и все-равно придется все делать людям.
Здравствуйте, Shmj, Вы писали: S>Мне никаких пособий и помощи не давали. Никто.
ты просто очень любишь тут пофилософствовать, как будто больше заняться вообще нечем, то есть работа явно непыльная
а так как философствуешь о России, то скорее всего живешь бедно и ищешь оправданий своего текущего положения, но так как на европу не ругаешься, то все-таки не бомжуешь там.
тебе халявное жилье дали и работаешь ночным сторожем? и мечтаешь о том, что остальных программистов загонят в такое же положение всякие ИИ и тогда тебе не так стремно будет? как говорил Гомер Симпсон "скорее на твоей могиле вырастет дерево", чем ИИ начнут реально создавать конкуренцию программистам и вытеснять тех с работы
Здравствуйте, __kot2, Вы писали:
__>ты просто очень любишь тут пофилософствовать, как будто больше заняться вообще нечем, то есть работа явно непыльная
Ну мы же люди а не животные. Это животным — дай стойло, дай жратвы — и все ОК, больше ничего не нужно.
Людям философствовать, как вы сказали, думать, размышлять, искать — не менее важно чем стойло и жратва. Стойло и жратва нужны для нашего физического тела, этого никуда не деть — наша природа такова.
__>тебе халявное жилье дали и работаешь ночным сторожем?
Ничего не давали — в Болгарии, насколько я знаю, особо никому не давали. Вернее временные давали варианты сезонные, и то не всем.
У меня коммерческий стаж разработки ПО — с 2004 года. Т.е. уже 20 лет стажа, по сути. Пусть я не звезда, не высший пилотаж но за 20 лет то хотя бы чему- то научился. По этому потихоньку работаю — на жизнь хватает.
__>и мечтаешь о том, что остальных программистов загонят в такое же положение всякие ИИ и тогда тебе не так стремно будет? как говорил Гомер Симпсон "скорее на твоей могиле вырастет дерево", чем ИИ начнут реально создавать конкуренцию программистам и вытеснять тех с работы
Да зачем мне этого хотеть то? Я ж сам в той же лодке.
Если я какой-то провокационный пост написал — это не значит что выразил свои желания. Иногда наоборот.
Здравствуйте, Shmj, Вы писали:
S>>Или ваши планы -- это попросить ChatGPT версии N точка ноль разработать прямоходящих роботов для замены сантехников?
S>Не только сантехников — но и всех других специалистов ручного труда. Пусть напишет прогу, чтобы робот выполнял все виды работ.
Т.е. ваш план -- это давать указания ИИ писать ПО для замены "специалистов ручного труда"? т.е. вы себя видите эдаким метапогроммистом, у которого вместо C# и VisualStudio в руках будет ChatGPT?
Здравствуйте, so5team, Вы писали:
S>Т.е. ваш план -- это давать указания ИИ писать ПО для замены "специалистов ручного труда"? т.е. вы себя видите эдаким метапогроммистом, у которого вместо C# и VisualStudio в руках будет ChatGPT?
Если оно будет достаточно умным — то любой сможет дать такие задания, не будет надобности в отдельных т.н. промпт-инженерах.
Тогда вообще жизнь людей изменится — по сути ни одной профессии оне останется. Просто будем жить как при коммунизме.
У ИИ нет способности наслаждаться и страдать — а у нас есть. По этому оно будет делать все, чтобы мы чем больше наслаждались и чем меньше страдали. Это если ИИ станет по настоящему умнее всех людей а так же общедоступен.
Так же возможны им другие варианты — что ИИ будет умнее 80% специалистов, а вот остальные 20% все равно будут нужны. Тогда жесткая конкуренция между людьми и попытка войти в эти 20%. Остальные 80% будут вынуждены жить на пособии с запретом иметь более 1 ребенка.
Так же есть вариант захвата ИИ определенной группой людей — не будет общедоступным.
Здравствуйте, Shmj, Вы писали:
S>Здравствуйте, so5team, Вы писали:
S>>Т.е. ваш план -- это давать указания ИИ писать ПО для замены "специалистов ручного труда"? т.е. вы себя видите эдаким метапогроммистом, у которого вместо C# и VisualStudio в руках будет ChatGPT?
S>Если оно будет достаточно умным — то любой сможет дать такие задания, не будет надобности в отдельных т.н. промпт-инженерах.
S>Тогда вообще жизнь людей изменится — по сути ни одной профессии оне останется. Просто будем жить как при коммунизме.
Если бы я был достаточно умным, то, вероятно, понял бы в чем же ваш план состоит. Но пока не понял, поэтому еще попытка уточнить. Ваш план в случае победы ИИ -- них*я не делать и наслаждаться жизнью?
А если ИИ не победит, а только заменит часть специалистов, тогда что?
Здравствуйте, so5team, Вы писали:
S>А если ИИ не победит, а только заменит часть специалистов, тогда что?
Классический стек разработки проекта (из какого-то старого учебника) выглядит так:
0. Заказчик, у которого есть проблема.
1. Специалист в предметной области, который понимает проблемы заказчика и умеет их донести техническим языком.
2. Программист-архитектор или сеньор.
3. Опционально консультанты в предметной области: математики, физики, биологи, медики, бухгалтера и т.д.
4. Программисты-кодеры или джуниоры.
5. Тестировщики.
6. Программист БД, администратор БД.
Вот условные низкоквалифицированные сотрудники, назовём их условно индусами, часто находятся на позициях 4-5. Насколько я понимаю, ИИ в виде Copilot в первую очередь направлен на то, чтобы заменить именно их. То есть призван ускорять работу сеньоров, беря на себя функцию джуниоров.
Devin как будто не сильно укладывается в эту схему в виду бОльшей самостоятельности. Но при этом никакой большой проект не доверить в виду отсутствия компетенций остальных участников. Поэтому я вижу для него место в небольших проектах без сложной логики, понятных с инженерной точки зрения.
Здравствуйте, Shmj, Вы писали:
S>Попытаться войти в часть тех, кого не заменил. Если не удалось — тогда не знаю — возможно что стать отшельником и жить натур. хозяйством.
"Отличный план, Уолтер! Надежный как швейцарские часы" (с)
Здравствуйте, so5team, Вы писали:
S>Здравствуйте, Shmj, Вы писали:
S>>Попытаться войти в часть тех, кого не заменил. Если не удалось — тогда не знаю — возможно что стать отшельником и жить натур. хозяйством.
S>"Отличный план, Уолтер! Надежный как швейцарские часы" (с)
нормальный план, деревня, сад, самогонный аппарат, доярочки...
Здравствуйте, Wawan, Вы писали:
S>>>Попытаться войти в часть тех, кого не заменил. Если не удалось — тогда не знаю — возможно что стать отшельником и жить натур. хозяйством.
S>>"Отличный план, Уолтер! Надежный как швейцарские часы" (с) W>нормальный план, деревня, сад, самогонный аппарат, доярочки...
Во вселенной Shmj доярок не будет, как и сантехников. Их заменят роботы, спроектированные и запрограммированные ИИ.
Здравствуйте, so5team, Вы писали:
S>Здравствуйте, Wawan, Вы писали:
S>>>>Попытаться войти в часть тех, кого не заменил. Если не удалось — тогда не знаю — возможно что стать отшельником и жить натур. хозяйством.
S>>>"Отличный план, Уолтер! Надежный как швейцарские часы" (с) W>>нормальный план, деревня, сад, самогонный аппарат, доярочки...
S>Во вселенной Shmj доярок не будет, как и сантехников. Их заменят роботы, спроектированные и запрограммированные ИИ.
Слышал, что в США уже появились школьники, которые принципиально не учатся из-за того, что думают, что во взрослой жизни все уже будут делать роботы и прочий ИИ. Вот у них жизнь "веселая" будет.
А какова пропускная способность всего этого дела и потребление энергии? Gpu будут работать без передыху с соотв.
потреблением, а результат будет крайне и крайне сомнителен.
Здравствуйте, Nuzhny, Вы писали:
N>Классический стек разработки проекта (из какого-то старого учебника) выглядит так: N>0. Заказчик, у которого есть проблема. N>1. Специалист в предметной области, который понимает проблемы заказчика и умеет их донести техническим языком. N>2. Программист-архитектор или сеньор. N>3. Опционально консультанты в предметной области: математики, физики, биологи, медики, бухгалтера и т.д. N>4. Программисты-кодеры или джуниоры. N>5. Тестировщики. N>6. Программист БД, администратор БД.
N>Вот условные низкоквалифицированные сотрудники, назовём их условно индусами, часто находятся на позициях 4-5. Насколько я понимаю, ИИ в виде Copilot в первую очередь направлен на то, чтобы заменить именно их. То есть призван ускорять работу сеньоров, беря на себя функцию джуниоров.
У меня только вопрос. Если никто не будет джуниором, то откуда возьмутся потом сеньоры (спустя время)? Сразу выучиться на сеньора разве возможно?
Когда закончатся сеньоры — то кто будет допиливать самого ИИ?
Здравствуйте, Sharov, Вы писали:
S>А какова пропускная способность всего этого дела и потребление энергии? Gpu будут работать без передыху с соотв. S>потреблением, а результат будет крайне и крайне сомнителен.
Здравствуйте, Shmj, Вы писали:
S>>А какова пропускная способность всего этого дела и потребление энергии? Gpu будут работать без передыху с соотв. S>>потреблением, а результат будет крайне и крайне сомнителен. S>Значительно выгоднее человека.
Есть подсчет потребляемой энергии к результату, т.е. КПД?
Здравствуйте, Kerk, Вы писали:
K>Зачем нужен инженер-разработчик ПО, который решает 13.86% задач?
ещё вчера пол процента, сегодня уже почти 15%, а завтра 50% и послезавтра 90% ..
задачи то разные в тесте, поэтому это вовсе не значит что в перспективе для всяких сайтегов / игр и возможно некоторой корпоративщины — процент не приблизится к потенциальному максимуму в условные 100% (особенно в рамках внутренней специализации такого AI под конкретные проекты, чтобы например по быстрому клепать условные Diablo 1-100, пока есть спрос — или какие нить авто AI генераторы уровней с новыми персонажами, локациями и историями) ..
и вообще собственно, тут фишка научить AI выполнять задачи только те, в последующей работоспособности которых он уверен и/или может протестировать (так или иначе), для остальных же он может например предлагать описание возможных подходов с подробными описаниями словами / комментариями и кодом, и показывать в чём он "сомневается" и предполагает затык (и где) — либо просто оставляет реализацию за человеком (попутно до обучаясь на том как человек реализует те задачи за которые AI не берётся),
вообщем любопытно думаю определённый потенциал есть, особенно если скармливать на обучение как код с документацией целиком, так и на множестве мелких связок типа "задача в Jira -> отпечаток кода её реализующий в проде, включая все нюансы его изменений там было <-> стало"
а может и даже с отслеживанием и обучением и всех изменений в debug версии в процессе разработки
P.S.:
представьте AI-кодерка который точно знает с какими задачами может справится (например не хуже человека), и пусть это будут комплексные задачи типа отдельных каких то "проектов" (возможно не очень больших) — и пусть таких будет 13.5% от общего числа запросов от клиентов — и тут уже процент заиграет совсем другими красками на каком нить апворке сколько там оборот — под миллиард $ в год ? а теперь представьте если сможете автоматизировать и отдать на откуп AI 13.5% от этого оборота ? понятно что пока что это утопия,
но даже чисто если отдельные задачи сможет выполнять поставленные в Jira (при условии что будет выполнять только те которые сможет выполнить не хуже человека), то такой AI-кодерок тоже может понравится многим фирмам (а также всяким стартапам и прочим) — шутка ли, можно будет сократить расходы на штат на 13.5%, в мировом айти это сотни миллиардов долларов наверное — если не триллионы ..
кто то не хило наварится на всём этом, если сие взлетит — хотя бы в таком виде :D
Здравствуйте, Shmj, Вы писали:
S>У меня только вопрос. Если никто не будет джуниором, то откуда возьмутся потом сеньоры (спустя время)? Сразу выучиться на сеньора разве возможно?
В университетах. Через курсы не получится уже, да.
S>Когда закончатся сеньоры — то кто будет допиливать самого ИИ?
Здравствуйте, Nuzhny, Вы писали:
N>Грамотные джуны, которые много знают. Посмотрим на статистику со SO:
Это формальное образование, чел. мог получать образование не формально.
Вопрос в другом.
Вот, около 5 лет чел. может обучаться за счет государства, за счет накоплений или не формально (пусть в таком случае время удваивается). Это имеет смысл.
Но ведь после этих 5 лет — ты специалист без достаточного опыта. Молодой-зеленый.
Ранее даже в таком виде ты был минимально полезен и мог набраться опыта.
Что если с появлением ИИ такие вот только получившие образование — станут полностью бесполезны. Вообще. Где им получать опыт тогда, чтобы дойти до сеньоров?
Здравствуйте, Shmj, Вы писали:
S>Это формальное образование, чел. мог получать образование не формально.
С формальным образованием и сейчас никуда не устроиться, а грамотные студенты трудоустроены уже с 3-4 курса, потому что могут приносить пользу. Они уже неплохо знают математику, физику, алгоритмы, написали сотню лабораторных на нескольких разных языках программирования. Зачастую знают больше некоторых синьоров, которые в силу ограниченного опыта многое забыли. Если человек звезда или выдающийся, то это видно уже в том возрасте.
Здравствуйте, Nuzhny, Вы писали:
N>С формальным образованием и сейчас никуда не устроиться, а грамотные студенты трудоустроены уже с 3-4 курса, потому что могут приносить пользу.
Многие устраиваются на вполне посредственые проекты — как то формоклепание, работа с данными, сервисами.
И в этом постепенно набираются опыта, со временем решают задачи весьма продвинутые.
Вопрос вот в чем — что если оборвать цепочку? Сделать джунов не нужными, не выгодными ввиду возможности условного Devin их заменить.
Здравствуйте, Shmj, Вы писали:
S>Многие устраиваются на вполне посредственые проекты — как то формоклепание, работа с данными, сервисами. S>И в этом постепенно набираются опыта, со временем решают задачи весьма продвинутые. S>Вопрос вот в чем — что если оборвать цепочку? Сделать джунов не нужными, не выгодными ввиду возможности условного Devin их заменить.
Видимо, у таких шансов не будет, надо определяться пораньше и идти за образованием. Я не вижу проблемы, врачи или химики не могут никуда устроиться без образования. Свой автомобиль на дороги общего пользования так просто тоже не выведешь. Программирование достигнет зрелости тоже, когда нельзя будет так просто с улицы что-то сделать. Но не из-за правил и запретов, а благодаря умным помощникам. Конторы, которым будут нужны условные синьоры будут брать студентов с профильных специальностей и учить их под себя. Это вполне нормальная практика для многих специальностей.
Здравствуйте, Nuzhny, Вы писали:
N>Видимо, у таких шансов не будет, надо определяться пораньше и идти за образованием. Я не вижу проблемы, врачи или химики не могут никуда устроиться без образования. Свой автомобиль на дороги общего пользования так просто тоже не выведешь.
Врач и даже водитель — это риск с последствиями для жизни. По этому регулируют.
Компьютер же доступен каждому и особого риска нет — максимально демократично. Инфа тоже доступна. Умение работать можно достаточно легко проверить.
С одной стороны есть закручивание гаек и попытка государства все урегулировать. С другой стороны есть и либеральные проекты, как-то фин. системы, которые существуют вопреки государству.
N>Конторы, которым будут нужны условные синьоры будут брать студентов с профильных специальностей и учить их под себя. Это вполне нормальная практика для многих специальностей.
Очень мало кто сможет учить под себя в чистый убыток
Здравствуйте, __kot2, Вы писали:
__>- devin, оно не залито. ты чем там вообще занимаешься? только о работе отчитываешься?
Откуда этот ужас берётся? Локальные иммигранты — умные коллеги, но когда оттуда коллега- вот как ты описал, причём по резюме- техлиды и тимлиды. Я недоумеваю.
M>>Хз на что они рассчитывают, но джунов уже чатгпт заменил. S>Не заменил, далеко не заменил.
Всмысле не заменил?
Не так давно была куча топиков про то что гпт отбирает работу у программистов от луддитов-истеричек, в том числе и от тебя. Галя, у нас отмена?
Здравствуйте, Muxa, Вы писали:
M>Всмысле не заменил? M>Не так давно была куча топиков про то что гпт отбирает работу у программистов от луддитов-истеричек, в том числе и от тебя. Галя, у нас отмена?
От меня — только рассуждения о будущем. В текущем исполнении оно похоже на продвинутый поисковик.