Blog / · 6 min de lecture
Computer Use, 1 mois de test. Ce qui marche, ce qui rate.
Retour honnête après un mois d'utilisation de Computer Use avec Claude. Les tâches où ça change vraiment le workflow, celles où c'est encore du cinéma, et mon verdict.
Anthropic a poussé la dernière itération de Computer Use début mars. J’ai pris le prétexte pour l’intégrer sérieusement dans mon workflow pendant un mois, sur des tâches réelles de mon studio. Pas des démos Twitter. Des vraies tâches.
Verdict court : c’est utile sur 3 catégories, du cinéma sur 4 autres. Détaillons.
Le setup
Claude Computer Use, version mars 2026, appelé via l’API dans un agent maison. Environnement : VM Debian dédiée, screen virtuel 1920x1080, headless avec accès contrôlé à un sous-ensemble d’applications. Je passe par l’API plutôt que par Claude Desktop parce que je veux logger tout ce qui se passe et rejouer les sessions en cas de bug.
Les tâches testées, réelles, issues de mon studio :
- Extraire des data d’un dashboard analytics legacy sans API
- Tester manuellement un flow de paiement sur Stripe en mode test
- Faire des captures annotées d’une app pour documentation
- Remplir un formulaire admin fastidieux sur une plateforme cliente
- Vérifier la SEO d’une dizaine de pages (ouvrir, inspecter, noter)
- Debugger un front qui marche en local mais pas sur staging
- Extraire des infos depuis des PDF scannés hébergés dans un Drive
Ce qui a marché
1. Extraction depuis une UI sans API (catégorie “RPA léger”)
Le dashboard analytics du client, c’est du PHP 5.6 qui sort du HTML brut sans endpoint JSON, sans export CSV, sans rien. La seule solution historique : un humain qui clique dans le tableau, recopie, colle dans Excel. 40 minutes, 3 fois par semaine.
Computer Use fait ça en 4 minutes, 100% fiable sur 15 sessions consécutives testées. L’agent ouvre le dashboard, navigue, extrait, formate en CSV, commit le fichier dans un repo de backup. Je l’ai mis en cron quotidien.
Économie réelle mesurée : 6h de travail humain/mois éliminées. Coût API : ~12 €/mois.
2. Remplissage de formulaires fastidieux et répétitifs
Typiquement : une plateforme d’administration où il faut créer des comptes utilisateurs avec une vingtaine de champs, validation par étapes, un wizard en 4 pages. L’agent fait ça de manière fiable, mieux qu’un humain parce qu’il ne se fatigue pas en page 3 et ne saute pas un champ.
Je l’utilise pour onboarder des nouveaux projets chez un client qui m’oblige à passer par son portail. Gain : 20 min par nouveau projet, je n’ai plus à le faire.
3. Vérification visuelle cross-device / cross-browser
L’agent ouvre une URL, prend des screenshots à différentes résolutions, compare avec une baseline, flag les écarts. C’est un Playwright avec un cerveau. Pour des vérifications visuelles post-deploy sur des pages marketing, ça fait le taff. Pas aussi bon qu’un vrai outil de visual regression (Chromatic, Percy), mais pour un one-shot c’est suffisant.
Ce qui n’a pas marché
1. Debugger un front — échec total
Ma tâche 6 : un site client en Next.js qui marche en local mais pas sur staging. J’ai demandé à l’agent d’ouvrir le staging, identifier le bug, suggérer des pistes. Résultat :
- L’agent n’a pas ouvert les DevTools correctement. Il a passé 15 minutes à essayer de cliquer sur F12 virtuellement.
- Quand il a fini par les avoir, il n’a pas su lire la console. Il voyait “beaucoup de texte rouge” et reportait ça comme “il y a des erreurs” sans les identifier.
- Il a confondu un warning React hydration avec une erreur de fetch.
Coût de la tâche : 2,30 € pour un diagnostic inutilisable. Je l’ai fait moi-même en 8 minutes.
Leçon : tout ce qui demande de lire finement des outputs techniques affichés graphiquement (DevTools, logs streamés, UI complexe d’IDE), c’est encore loin. Mieux vaut un agent CLI qui lit directement les fichiers.
2. Extraction depuis PDFs scannés
J’ai voulu tester sur des PDFs scannés (factures, bons de commande). Échec : l’agent voit le PDF, mais la qualité OCR native de son vision model sur des scans moyens (300dpi, encres penchées, tampons) reste inférieure à un bon outil OCR dédié (Tesseract 5 + preprocessing, ou Mistral OCR API). Il hallucine des chiffres, confond des O et des 0, manque des champs.
Pour un humain, aucune différence visible dans le PDF. Pour l’agent, 7% de champs incorrects sur un batch de 50 documents. Inacceptable en prod.
3. Test manuel d’un flow de paiement
J’ai voulu lui faire valider un flow Stripe test : créer un compte, ajouter une carte, passer commande, vérifier l’email de confirmation, annuler. L’agent a réussi à aller jusqu’à “passer commande” mais :
- Il remplissait trop vite et déclenchait des validations côté front qui le bloquaient.
- Il n’a pas su ouvrir Gmail pour vérifier l’email (l’auth Google l’a fait paniquer).
- Quand le flow a eu une étape inattendue (un popup de cookies), il a cliqué au hasard dessus.
Pour du testing end-to-end, Playwright avec une suite bien écrite reste infiniment plus fiable et moins cher.
4. Captures d’écran annotées pour documentation
Ça a marché sur le papier mais les annotations étaient… mauvaises. Des flèches mal placées, des textes qui dépassaient, des couleurs de surlignage qui ne ressortaient pas. Le résultat n’était pas publiable. Je finis par faire les captures moi-même et les annoter dans CleanShot en 2 minutes.
Mon verdict
Computer Use en 2026, c’est un outil très bon sur du RPA léger (navigation prévisible, data extraction, remplissage de formulaires), et frustrant sur tout ce qui demande de l’interprétation fine d’interfaces riches (DevTools, IDEs, dashboards complexes).
Concrètement, sur mes 7 tâches de test :
- 3 succès → intégrées en production dans mon workflow
- 4 échecs → abandonnées, je continue comme avant
Le ROI de ces 3 succès est réel : environ 8h/mois économisées sur des tâches chiantes que personne ne voulait faire. À 20 €/mois de coût API, c’est trivialement rentable.
Ce que ça m’a appris
Computer Use n’est pas “une IA qui remplace un humain devant un ordi”. C’est un outil de RPA plus intelligent que les outils RPA historiques (UiPath, Automation Anywhere), mais encore loin du généraliste humain.
L’écart entre démos et pratique reste énorme. Les vidéos Anthropic montrent Computer Use achetant des billets d’avion. En pratique, la même tâche bloque parce qu’il y a un captcha Cloudflare ou une pop-up cookie. Les démos sont montées sur des sites friendly et prévisibles.
Pour du dev pur, Claude Code CLI reste bien plus efficace. Computer Use n’est pertinent que quand tu n’as pas d’alternative CLI/API. Si le système cible a une API, utilise-la. Si tu peux scripter en headless, fais-le. Computer Use, c’est le dernier recours.
Je continue à l’utiliser, mais sur le périmètre restreint identifié. Les autres cas, je les ai barré de ma todo.
Continuer la lecture