Kevin Aubrée

Blog / · 7 min de lecture

Claude Opus 4.7 est sorti aujourd'hui. Ce qu'il change vraiment pour un dev.

Anthropic a publié Claude Opus 4.7 le 16 avril 2026. SWE-bench Pro à 64,3%, +13% sur le coding, nouveau niveau xhigh, pricing inchangé. Analyse à chaud pour les devs.

Claude Opus 4.7 est sorti aujourd'hui. Ce qu'il change vraiment pour un dev.

Anthropic a poussé Claude Opus 4.7 ce matin. Première release de la classe “Mythos” avec les garde-fous de production, et franchement, après deux heures à le tester sur mes agents existants, j’ai des observations qui méritent mieux qu’un tweet.

Je résume les chiffres officiels, puis je rentre dans ce qui change concrètement pour un dev qui bosse au quotidien avec Claude.

Les chiffres qui comptent

  • SWE-bench Pro : 64,3% — devant GPT-5.4 (57,7%) de plus de 6 points. Sur Opus 4.6, on était à environ 53%. Le gain est net : +11 points en 2 mois.
  • SWE-bench Verified : 87,6% — on approche du plafond de ce benchmark.
  • +13% sur le benchmark interne 93-task d’Anthropic, avec 4 tâches que ni Opus 4.6 ni Sonnet 4.6 n’avaient jamais résolues.
  • 3x plus de tâches de production résolues en agentic workflows (la métrique la plus honnête, à mon sens, parce que c’est pas du benchmark synthétique).
  • +14% en multi-step agentic reasoning, et surtout un tiers seulement des tool errors vs la version précédente.
  • Context 1M tokens, pas de premium long-context. Output max 128K.
  • Pricing inchangé : 5$ input / 25$ output par million de tokens. Ça c’est surprenant — ils auraient pu augmenter, ils l’ont pas fait.

Ce qui change techniquement

Le nouveau niveau “xhigh”

Anthropic a ajouté un niveau de reasoning effort entre high et max. L’idée : sur des problèmes durs, max prenait parfois 40+ secondes et cramait des tokens, alors que high était insuffisant. xhigh comble le trou — plus de raisonnement que high, moins de latence que max.

Concrètement, j’ai retesté un agent qui fait de l’analyse de traces d’erreurs complexes. Sur 20 requêtes :

  • high : 12 bonnes réponses, 5,2s moyenne
  • xhigh : 18 bonnes réponses, 9,1s moyenne
  • max : 19 bonnes réponses, 23,7s moyenne

Le ratio qualité/latence de xhigh est excellent. C’est probablement là où je vais router par défaut mes tâches exigeantes.

La vision haute résolution

Vision montée jusqu’à 3.75 mégapixels. Sur Opus 4.6, j’avais des ratés sur des screenshots denses (tableaux Excel, dashboards compacts). J’ai refait trois tests :

  1. Extraction depuis un screenshot de Grafana très chargé → exact à 100% (avant 92%)
  2. Lecture d’un PDF scanné moyenne qualité → toujours inférieur à un OCR dédié (Mistral OCR) sur les cas limites
  3. Analyse d’une capture de DevTools → nette amélioration sur l’identification des requests individuelles

Verdict : c’est un vrai saut sur les UI denses. Sur du scan papier, pas assez pour remplacer un OCR spécialisé.

Le nouveau tokenizer

Anthropic mentionne “a new tokenizer” sans détailler dans les release notes publiques. J’ai mesuré : sur mes prompts système habituels, je consomme environ 8 à 12% de tokens en moins pour le même contenu. C’est une réduction de coût silencieuse qui s’ajoute aux 0% de hausse de prix.

Ce que ça change pour moi (et pour toi)

Pour les agents longue-durée

Le gain “-2/3 de tool errors” est probablement le plus impactant en pratique. Mes agents qui tournent en background et qui utilisaient tool calls en cascade avaient un taux d’échec autour de 15% sur 4.6 (bad params, tool non appelé, mauvais format). Sur 4.7, j’ai refait tourner le même harness sur 200 runs : 4,8% d’échecs. Division par 3, exactement comme annoncé.

Concrètement, ça veut dire moins de retry logic, moins de code défensif autour des calls, moins de cas bizarres à débugger.

Pour le dev interactif

Pour le dev assisté au quotidien (Claude Code, Cursor), le gain est plus nuancé. Sur des tâches courtes et claires, Sonnet 4.6 reste largement suffisant et beaucoup moins cher. Opus 4.7 s’impose sur les tâches complexes multi-fichiers, les debug tordus, les refacto ambitieux.

L’arbre de décision que je recommandais en mars tient : Haiku pour classification/extraction, Sonnet pour refacto/review standard, Opus pour architecture/multi-couches. Opus 4.7 ne change pas cet arbre — il muscle juste la case Opus.

Pour les benchmarks marketing

64,3% sur SWE-bench Pro vs 57,7% pour GPT-5.4, c’est 6 points. Significatif mais pas écrasant. La réalité du terrain : pour 80% des tâches, tu ne verras pas de différence de qualité entre les deux. Les différences apparaissent sur les tâches que ni l’un ni l’autre ne résolvaient avant — et là, Opus 4.7 gagne du terrain.

Le détail intéressant : Mythos

Axios a relevé un truc qu’Anthropic a dit en off : Opus 4.7 “trail” un modèle interne non publié appelé Mythos. Anthropic reconnaît donc publiquement qu’ils ont mieux en interne, mais qu’ils n’ont pas jugé bon de le sortir encore — probablement pour des raisons de safety / alignment.

C’est une info intéressante à plusieurs niveaux :

  1. Transparence inhabituelle. OpenAI et Google n’admettent jamais publiquement qu’ils ont mieux en interne. Anthropic joue la carte de l’honnêteté.
  2. Roadmap implicite. Mythos arrivera, probablement d’ici 6 mois si la trajectoire historique se confirme. Les devs peuvent s’attendre à un saut plus important que 4.6 → 4.7.
  3. Le ralentissement apparent des releases est volontaire. Ce qu’on reçoit, c’est ce qui a passé la batterie de tests safety. Ce qui est plus puissant attend.

Migration : qu’est-ce qui casse ?

J’ai migré mes trois agents de prod de claude-opus-4-6 vers claude-opus-4-7 en changeant une chaîne de caractère. Zéro autre modification de code. Les 3 agents ont tourné pendant une heure sans régression.

Ce à quoi il faut faire attention :

  • Le nouveau tokenizer peut shifter les limites sur des edge cases où tu avais des prompts calibrés au token près.
  • Si tu utilises du tool use strict avec validation de schémas exacts, refais une passe — les formats de sortie sont légèrement plus concis sur 4.7.
  • Le prompt caching reste compatible d’une version à l’autre, tu gardes tes économies.

Ce qui reste décevant

Pour être honnête, deux choses n’ont pas bougé avec cette release :

1. La capacité de computer use. Aucune amélioration mentionnée. L’intégration Chrome DevTools reste aussi inégale que ce que j’avais testé début avril (voir mon retour sur 1 mois de Computer Use). Dommage.

2. Le prix d’entrée reste élevé pour du volume. À 25$/M tokens output, un produit grand public qui servirait Opus 4.7 en masse coûte trop cher à exploiter. Pour du B2B ciselé ça va, pour du consumer c’est toujours Haiku/Sonnet.

À retenir

Opus 4.7 est une release solide sans être révolutionnaire. Le vrai gain est dans la fiabilité agentique (division par 3 des tool errors) et le nouveau niveau xhigh qui offre un meilleur ratio qualité/latence que max.

Si tu utilises Claude pour du dev sérieux, migre dès aujourd’hui sur claude-opus-4-7. Si tu es sur des workflows agentiques, migre hier.

Et garde un œil sur Mythos. Quelque chose me dit qu’on n’a pas fini d’en entendre parler.


Sources

Kevin Aubrée

Continuer la lecture

Retour au blog