Здравствуйте, Shmj, Вы писали:
S>Какие будут идеи?
Насколько я понимаю, с этим сейчас беда. SWE-bench Verified, на котором тестируют модели, показывает не столько качество модели, сколько промта. Читал недавно анализ его прохождения различными моделями. Типа, Anthropic запускаются с промтом, где надо сначала писать тесты, а потом код до тех пор, пока он не удовлетворит всем тестам. Поэтому у них результаты выходят, с одной стороны, лучше, но с другой тратят намного больше времени и токенов. Модели от OpenAI не начинают писать тесты, а сразу код, тратят сильно меньше ресурсов, но чуть хуже выступают.
В результате из всего пула задач они различаются всего на 36 задач (из 2294). То есть там большая часть решается всеми корректно, часть не решается никем и 36 задач, которые решаются за счёт того, что сперва одна из моделей пишет тесты.