Модель gpt-oss-120b достигла уровня победителя Международной олимпиады по информатике
Исследователи применили метод GenCluster и получили золотой результат на IOI 2025
Исследователи в области искусственного интеллекта сообщили, что открытая языковая модель gpt-oss-120b достигла результата, сопоставимого с золотой медалью Международной олимпиады по информатике (IOI 2025). Для достижения этого показателя ученые использовали специальную методику под названием GenCluster, которая помогает системе анализировать и улучшать собственные решения программных задач.
Международная олимпиада по информатике — это одно из самых престижных соревнований для школьников-программистов, где участники решают сложные задачи на алгоритмы и логику. Исследователи решили использовать задания с олимпиады, чтобы проверить, насколько современные модели искусственного интеллекта способны рассуждать и писать эффективный код.
Метод GenCluster основан на том, что модель генерирует тысячи возможных программных решений, затем автоматически проверяет их, группирует по поведению и выбирает лучшие варианты. В ходе экспериментов gpt-oss-120b создавала до 5 тысяч решений на одну задачу и тестировала их с использованием тех же правил и ограничений, что и на реальной олимпиаде. После отбора система выбирала наиболее эффективное решение и отправляла его как окончательный ответ.
Результаты показали, что gpt-oss-120b превзошла другие открытые модели, включая gpt-oss-20b, DeepSeek-R1-0528 и Qwen3-235B-A22B. По словам разработчиков, их система лучше справляется с увеличением объема вычислений и демонстрирует более стабильные результаты на сложных задачах. Это означает, что модель может улучшать свои ответы, если ей дать больше времени и ресурсов для анализа.
Авторы проекта подчеркнули, что их подход полностью открыт и воспроизводим. Это позволит другим исследователям проводить аналогичные эксперименты и проверять свои модели на реальных задачах. По мнению специалистов, достижения gpt-oss-120b показывают, что открытые модели искусственного интеллекта постепенно приближаются по уровню возможностей к закрытым коммерческим системам и могут использоваться для обучения и научных исследований.