GPT-5.5 : OpenAI devance Claude et Gemini sur l'IA agentique et double ses tarifs API

OpenAI publie GPT-5.5 le 23 avril 2026, présenté par la société comme son premier modèle de base entièrement ré-entraîné depuis GPT-4.5. Déployé auprès des abonnés Plus, Pro, Business et Enterprise via ChatGPT et Codex, le modèle cible en priorité les flux de travail agentiques intensifs : programmation autonome, travail de connaissance structuré et premières applications en recherche scientifique. Le tarif API double par rapport à GPT-5.4, passant à 30 dollars par million de tokens en sortie pour la version standard et à 180 dollars pour la version Pro. Le signal tarifaire est clair : OpenAI considère que la valeur perçue justifie un repositionnement de prix dans le segment premium.

Les faits

GPT-5.5 est disponible en deux variantes. La version standard accède via API à un million de tokens de contexte, facturée 5 dollars par million de tokens en entrée et 30 dollars en sortie. GPT-5.5 Pro, accessible aux abonnés Pro, Business et Enterprise, est tarifée à 30 dollars en entrée et 180 dollars en sortie. L'environnement Codex intègre pour sa part une fenêtre de contexte de 400 000 tokens.

Sur les benchmarks publiés par OpenAI, GPT-5.5 atteint 82,7 % sur Terminal-Bench 2.0, un test d'évaluation de workflows en ligne de commande complexes. Sur ce même benchmark, Claude Opus 4.7 d'Anthropic score 69,4 % et Gemini 3.1 Pro de Google 68,5 %. L'écart dépasse 13 points sur les deux concurrents les plus proches. En résolution d'issues GitHub (SWE-Bench Pro), le modèle atteint 58,6 %. Sur Expert-SWE, une évaluation interne OpenAI pour des tâches de programmation estimées à vingt heures de travail, il score 73,1 %.

        Sur GDPval, un benchmark qui évalue la capacité des agents IA à produire du travail de connaissance structuré sur 44 professions, GPT-5.5 atteint 84,9 %. Sur OSWorld-Verified, qui mesure l'autonomie dans des environnements informatiques réels, il score 78,7 %. Ces deux résultats illustrent la priorité donnée par OpenAI aux usages professionnels à fort volume.
      

OpenAI précise également des résultats sur des verticals spécialisés : 60,0 % sur FinanceAgent, 88,5 % sur des tâches internes de modélisation en banque d'investissement, et 54,1 % sur OfficeQA Pro. Dans le domaine scientifique, GeneBench passe de 19,0 % (GPT-5.4) à 25,0 %, et BixBench (bioinformatique) atteint 80,5 %.

Sur le plan de l'efficience, OpenAI indique que GPT-5.5 maintient la même latence par token que GPT-5.4 tout en atteignant un niveau d'intelligence supérieur, et utilise significativement moins de tokens pour accomplir les mêmes tâches dans Codex. L'argument économique avancé est que le coût par tâche réelle peut rester compétitif malgré le doublement du tarif affiché.

Analyse stratégique

La structure des benchmarks sélectionnés par OpenAI indique une stratégie de positionnement délibérée : GDPval couvre 44 professions, Terminal-Bench cible les ingénieurs et les équipes DevOps, FinanceAgent et les évaluations bancaires internes visent le secteur financier. Le modèle n'est pas présenté comme un assistant généraliste amélioré mais comme un outil de productivité pour les travailleurs qualifiés à haute valeur ajoutée.

Ce positionnement est cohérent avec la direction prise par OpenAI sur Codex, son environnement de programmation agentique. L'ambition déclarée est de faire évoluer ChatGPT vers une application de productivité professionnelle à spectre large, ce que plusieurs analyses décrivent comme une stratégie de "super app". Le benchmark OSWorld-Verified, qui évalue l'autonomie dans des environnements informatiques réels, renforce cette lecture : l'objectif n'est plus uniquement d'assister un utilisateur mais d'exécuter des tâches de façon autonome pendant des durées étendues.

Le doublement tarifaire constitue un test de marché explicite. OpenAI dispose de données de consommation réelle à grande échelle via ChatGPT, ce qui lui permet d'estimer avec précision l'élasticité-prix de ses utilisateurs professionnels. Un doublement de prix sur un modèle frontier correspond rarement à un manque de confiance dans la demande.

L'angle sécurité

OpenAI a évalué GPT-5.5 sous son Preparedness Framework et lui attribue une note "High" dans les domaines des capacités biologiques et cybersécurité. Ce niveau d'évaluation déclenche des mesures de contrôle d'accès renforcées. La société annonce un programme spécifique, "Trusted Access for Cyber", qui réserve certaines capacités avancées aux professionnels de la sécurité informatique vérifiés.

Cette décision rappelle le positionnement d'Anthropic avec son modèle Mythos Preview, dont l'accès avait été restreint à une quarantaine d'acteurs sélectionnés. La convergence des deux laboratoires vers des mécanismes de contrôle d'accès différencié selon les profils d'utilisateurs constitue une tendance de fond dans la gouvernance des modèles frontier.

Ce qu'il faut retenir

GPT-5.5 standard : 5 $/M tokens en entrée, 30 $/M en sortie (2x GPT-5.4) ; Pro : 30 $/M en entrée, 180 $/M en sortie.
Terminal-Bench 2.0 : 82,7 % (Claude Opus 4.7 : 69,4 % ; Gemini 3.1 Pro : 68,5 %).
GDPval (44 professions qualifiées) : 84,9 % ; OSWorld-Verified (autonomie informatique) : 78,7 %.
Latence par token identique à GPT-5.4, consommation de tokens réduite pour les mêmes tâches Codex.
Preparedness Framework : capacités bio et cyber notées "High" ; programme "Trusted Access for Cyber" pour les professionnels vérifiés.
Disponible pour les abonnés Plus, Pro, Business et Enterprise via ChatGPT et Codex.

Impact sectoriel

Pour les entreprises utilisatrices d'API OpenAI à fort volume, le doublement tarifaire impose une révision des modèles économiques d'intégration. Les équipes qui ont bâti des workflows sur GPT-5.4 devront arbitrer entre migrer vers GPT-5.5 avec son gain d'efficience en tokens, maintenir GPT-5.4 tant que le modèle reste disponible, ou explorer des alternatives open source comme DeepSeek V4, publié le lendemain avec des revendications de performances comparables aux meilleurs modèles fermés.

Pour les secteurs ciblés explicitement par les benchmarks (banque d'investissement, bioinformatique, service client complexe, ingénierie logicielle), GPT-5.5 représente un niveau de performance agentique qui dépasse ce que les modèles précédents pouvaient atteindre de manière autonome. La question n'est plus de savoir si l'IA peut traiter ces tâches, mais à quel coût et avec quel niveau de supervision humaine résiduelle.

Pour Anthropic et Google, l'écart de 13 points sur Terminal-Bench 2.0 constitue un signal de réponse nécessaire sur les benchmarks d'IA agentique, segment qui structure de plus en plus la décision d'achat des équipes techniques en entreprise.

GPT-5.5 marque une inflexion dans la stratégie OpenAI : le modèle est conçu pour exécuter des tâches de plusieurs heures dans des environnements professionnels structurés, pas seulement pour répondre à des questions. Le doublement tarifaire est un signal de confiance dans la demande professionnelle. Dans un contexte où l'open source atteint simultanément le niveau frontier, OpenAI choisit la voie de la spécialisation verticale et du premium assumé. La prochaine étape sera de vérifier si les entreprises confirment ce pari par leur adoption réelle.