Специалисты из OpenAI провели исследование, посвященное способности искусственного интеллекта (ИИ) к написанию и исправлению кода.
Результаты работы опубликованы на платформе arXiv. Тестировались три различных модели ИИ, включая базовую модель «о1» и более продвинутую «GPT-4o», а также «Claude 3.5 Sonnet» от компании Anthropic.

Для оценки эффективности работы моделей использовался бенчмарк SWE-Lancer, основывающийся на 1400 заданиях, созданных для фрилансеров на платформе Upwork.
Важно, что модели не имели доступа к интернету, что исключало возможность