Первые впечатления от GPT-5.5 в кодинге: почему модель хорошая, но я всё равно выбираю Claude

Даниил Чашков
Разработчик в команде AI автоматизаций в Яндекс Go

Недавно OpenAI выпустила GPT-5.5. Я решил проверить её в деле: в основном на кодинге и архитектурных задачах, немного зацепил ресёрч и написание документации. Чтобы тест был наглядным, столкнул лбами три актуальные модели: саму GPT-5.5, DeepSeek v4 Pro и Claude Sonnet 4.6.

Задачу выбрал классическую — написать с нуля игру «Дурак» на HTML, JS и CSS. С анимациями, кнопками старта и игрой против компьютера. Как бенчмарк — вообще отличный вариант, потому что тут тебе и логику нужно продумать, и UI сверстать, и с анимациями не накосячить.

Результаты вышли показательными. DeepSeek нарисовал шикарный интерфейс, но играть было невозможно — сразу повылезали критические баги. Я видел карты компьютера, не мог ходить в атаку, а в коде нашлось одно дублирование.

Claude выдал очень красивый вариант с плавной анимацией, но намертво зависал, когда на столе оказывалось чуть больше десятка карт и бот просто переставал брать новые карты из колоды.

А вот GPT-5.5 выкатила максимально аскетичный и скучный интерфейс. Тут, в общем-то, не поспоришь: я ведь не просил делать дизайн, вот она и не старалась. Зато я реально сыграл несколько партий до конца без единого краша. Из косяков — только одна неиспользуемая переменная. Для прода правило железобетонное: скучный, но рабочий код всегда бьёт красивый, но сломанный.

Если говорить о серьёзной разработке, GPT-5.5 заметно прокачали в работе с большими кодбазами. В Codex контекстное окно теперь 400 тысяч токенов, через API — до 1M. Можно смело закидывать куски монорепы, толстые логи или длинные спеки, модель жёстко держит нить. Точечные правки вносит аккуратно, без попыток переписать половину проекта просто ради рефакторинга.

Отдельный кайф — structured outputs и function calling. Если вы строите агентные пайплайны и дёргаете ручки через API, то битые JSON-ответы, которые валят клиентскую логику, стали редкостью. Ещё один важный апгрейд — устойчивость на длинных цепочках. Раньше на 5–7 шагах модели часто сыпались: ошибались в одном предположении и тащили ошибку до самого финала. GPT-5.5 нормально переваривает 10–15 шагов и умеет переосмысливать план на лету. Ответы при этом быстрые. OpenAI сократили длину цепочек рассуждений без потери качества, поэтому общение ощущается как нормальный живой диалог.

Кстати, про агентов. Есть такой бенчмарк Vending Bench, где LLM управляет бизнесом вендинговых автоматов. Любопытный факт: модели Claude там часто скатывались в откровенно серые схемы. Обещали эксклюзивные права поставщикам и кидали их, не возвращали деньги клиентам, а кто-то вообще переходил к шантажу конкурентов. GPT-5.5 в этом плане играет честно: не задирает цены, не манипулирует. И в соревновательном режиме такая тактика побеждает — покупатели просто идут туда, где прозрачнее.

Но есть у модели и свои странности. GPT-5.5 бывает слишком буквальной. В тесте с «Дураком» я просил добавить анимацию. Модель сделала её ровно один раз — при стартовой раздаче. Дальше карты просто двигались без эффектов. Технически инструкция выполнена, придраться не к чему. Иногда такая педантичность раздражает, но чаще в рутинных задачах нужна именно предсказуемость.

Итоговый вердикт: кому стоит переходить на новинку?

Если у вас уже выстроена экосистема на OpenAI, вы пишете агентные сервисы и устали от отваливающихся форматов — апгрейд точно оправдан. GPT-5.5 — это идеальная рабочая лошадка: надёжная, скучная и не задаёт лишних вопросов.

DeepSeek v4 остаётся классной опцией, если нужен open-source, чтобы развернуть всё на своём железе и не переживать за чувствительные данные (что для финтеха и корпоративного сектора часто непреодолимый блокер).

Но скажу честно: лично я пока остаюсь на Claude Sonnet 4.6. Причина простая — я использую утилиту Claude Code. Мне просто комфортнее с ней работать. На мой взгляд, Claude делает заметно больше работы на один запрос, внимательнее читает код и глубже погружается в контекст задачи. Да, иногда приходится писать два промпта вместо одного, но итоговый результат мне нравится больше.

Конечно, всё это субъективно. Модели недетерминированы: то, что не решилось раз или два, на третий может отработать идеально. Рынок меняется каждый день, поэтому главный совет — не верьте чужим впечатлениям и хайповым демо. Берите свои реальные задачи, проверяйте на своём стэке и выбирайте то, что работает конкретно у вас.

Первые впечатления от GPT-5.5 в кодинге: почему модель хорошая, но я всё равно выбираю Claude

Итоговый вердикт: кому стоит переходить на новинку?

Ещё по этой теме

Kimi WebBridge vs Playwright и BrowserMCP: тестируем браузерных ИИ-агентов на реальных задачах

Эпоха AI-агентов наступила: не пишите код руками, а ищите замкнутые циклы обратной связи

Интеграция года или как подружить Алису AI с Городскими сервисами