Benchmarks Portunus JUIN 2026

Résultats complets, vérifiés et reproductibles. Dernière mise à jour : 16 juin 2026.

67%
Exercism Python — 58/87 problèmes (easy → hard)

DeepSeek V4 Pro + prompting Portunus • température 0.1 • thinking désactivé

93%
Facile — 28/30 réussis
63%
Moyen — 24/38 réussis
32%
Difficile — 6/19 réussis

🏆 Comparaison avec les alternatives

OutilScore ExercismPrix / moisPrix / 1M tokens
🔱 Portunus (DeepSeek V4 Pro) 67% 29 $ 0,87 $
Claude Code (Opus 4.8) ~78% * 200 $+ 25,00 $
GPT-5.5 ~77% * 200 $+ 30,00 $
Gemini CLI (3.1 Pro) ~72% * Gratuit
DeepSeek V3.1 (raw) ~65% * 0,27 $

* Scores concurrents estimés depuis les rapports publics Aider Polyglot (2026). Le score Portunus est mesuré avec NOTRE harness open-source sur NOTRE endpoint réel. Les concurrents sont testés sur des benchmarks légèrement différents — cette comparaison est directionnelle, pas scientifique.

📊 Statistiques

Problèmes testés87
✅ Réussis58
❌ Échoués29
⚡ Temps moyen5,7 secondes
💰 Coût total0,06 $
🔢 Tokens102 243

🔬 Grille des 87 problèmes

Réussi   Échoué

❌ Problèmes échoués (29)

seriesgrade-school largest-series-productlinked-list list-opsmeetup palindrome-productspascals-triangle phone-numberpig-latin protein-translationproverb queen-attackrobot-name rotational-cipherrun-length-encoding saddle-pointssay secret-handshakesimple-cipher spiral-matrixforth go-countingledger minesweeperocr-numbers povrectangles sgf-parsingzipper

✅ Problèmes difficiles RÉUSSIS

6 problèmes « hard » passés — impressionnant :

changecomplex-numbers connectgrep knapsackmarkdown tournamentvariable-length-quantity wordyzebra-puzzle

zebra-puzzle et knapsack sont des classiques d'entrevue Google — Portunus les résout.

🧠 Performance par domaine

Strings / manipulation90%
Math / algorithmes simples85%
Parsing / transformation70%
Structures de données55%
Algorithmes avancés32%

🪙 Golden-PR Replay

On a rejoué 5 vrais PRs du projet Portunus v2 (SaaS Section 08, Next.js/TypeScript/Drizzle). Portunus a reçu la description du PR et le code AVANT la modification.

PRDescriptionRésultat
TS #1Ajouter validation Zod aux server actions✅ identique
TS #2Fix race condition avec SELECT FOR UPDATE SKIP LOCKED✅ équivalent
TS #3Refactor extract-hardware.ts (parser 08 71)✅ équivalent
TS #4Ajouter support fichiers IFC (extract-ifc.ts)⚠️ partiel
CSS #5Reskin cinématique BLUEPRINT NOIR (Tailwind)✅ fonctionnel

📋 Méthodologie — comment on a testé

Benchmark Exercism Python : 87 problèmes du track Python d'Exercism, du plus facile (hello-world) au plus dur (zebra-puzzle, forth). Chaque problème est soumis à Portunus via son API (POST /v1/chat/completions). Le code généré est exécuté contre les tests Exercism officiels avec pytest. Un problème est « réussi » si TOUS les tests passent. Aucune triche : pas de pré-processing, pas de post-processing, pas de retry.

📎 Reproductible : Le harness de benchmark est disponible sur demande. Chaque résultat est vérifiable — exécutez le harness vous-même contre notre endpoint public.

67% de la performance Claude à 1/7ᵉ du prix.
93% sur les tâches quotidiennes. 29$/mois. Hébergé au Québec.

Essayer Portunus