Re: Придумать Т.З. для оценки ИИ-кодинга...
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 25.11.25 07:48
Оценка:
Здравствуйте, Shmj, Вы писали:

S>Какие будут идеи?


Насколько я понимаю, с этим сейчас беда. SWE-bench Verified, на котором тестируют модели, показывает не столько качество модели, сколько промта. Читал недавно анализ его прохождения различными моделями. Типа, Anthropic запускаются с промтом, где надо сначала писать тесты, а потом код до тех пор, пока он не удовлетворит всем тестам. Поэтому у них результаты выходят, с одной стороны, лучше, но с другой тратят намного больше времени и токенов. Модели от OpenAI не начинают писать тесты, а сразу код, тратят сильно меньше ресурсов, но чуть хуже выступают.
В результате из всего пула задач они различаются всего на 36 задач (из 2294). То есть там большая часть решается всеми корректно, часть не решается никем и 36 задач, которые решаются за счёт того, что сперва одна из моделей пишет тесты.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.