Benchmarks — Portunus

Résultats complets, vérifiés et reproductibles. Dernière mise à jour : 16 juin 2026.

🏆 Comparaison avec les alternatives

Outil	Score Exercism	Prix / mois	Prix / 1M tokens
🔱 Portunus (DeepSeek V4 Pro)	67%	29 $	0,87 $
Claude Code (Opus 4.8)	~78% *	200 $+	25,00 $
GPT-5.5	~77% *	200 $+	30,00 $
Gemini CLI (3.1 Pro)	~72% *	Gratuit	—
DeepSeek V3.1 (raw)	~65% *	—	0,27 $

* Scores concurrents estimés depuis les rapports publics Aider Polyglot (2026). Le score Portunus est mesuré avec NOTRE harness open-source sur NOTRE endpoint réel. Les concurrents sont testés sur des benchmarks légèrement différents — cette comparaison est directionnelle, pas scientifique.

📊 Statistiques

Problèmes testés	87
✅ Réussis	58
❌ Échoués	29
⚡ Temps moyen	5,7 secondes
💰 Coût total	0,06 $
🔢 Tokens	102 243

🔬 Grille des 87 problèmes

█ Réussi █ Échoué

❌ Problèmes échoués (29)

seriesgrade-school largest-series-productlinked-list list-opsmeetup palindrome-productspascals-triangle phone-numberpig-latin protein-translationproverb queen-attackrobot-name rotational-cipherrun-length-encoding saddle-pointssay secret-handshakesimple-cipher spiral-matrixforth go-countingledger minesweeperocr-numbers povrectangles sgf-parsingzipper

✅ Problèmes difficiles RÉUSSIS

6 problèmes « hard » passés — impressionnant :

changecomplex-numbers connectgrep knapsackmarkdown tournamentvariable-length-quantity wordyzebra-puzzle

zebra-puzzle et knapsack sont des classiques d'entrevue Google — Portunus les résout.

🧠 Performance par domaine

Strings / manipulation	90%
Math / algorithmes simples	85%
Parsing / transformation	70%
Structures de données	55%
Algorithmes avancés	32%

🪙 Golden-PR Replay

On a rejoué 5 vrais PRs du projet Portunus v2 (SaaS Section 08, Next.js/TypeScript/Drizzle). Portunus a reçu la description du PR et le code AVANT la modification.

PR	Description	Résultat
TS #1	Ajouter validation Zod aux server actions	✅ identique
TS #2	Fix race condition avec SELECT FOR UPDATE SKIP LOCKED	✅ équivalent
TS #3	Refactor extract-hardware.ts (parser 08 71)	✅ équivalent
TS #4	Ajouter support fichiers IFC (extract-ifc.ts)	⚠️ partiel
CSS #5	Reskin cinématique BLUEPRINT NOIR (Tailwind)	✅ fonctionnel

📋 Méthodologie — comment on a testé

Benchmark Exercism Python : 87 problèmes du track Python d'Exercism, du plus facile (hello-world) au plus dur (zebra-puzzle, forth). Chaque problème est soumis à Portunus via son API (POST /v1/chat/completions). Le code généré est exécuté contre les tests Exercism officiels avec pytest. Un problème est « réussi » si TOUS les tests passent. Aucune triche : pas de pré-processing, pas de post-processing, pas de retry.

Modèle : DeepSeek V4 Pro (API cloud, pas de fine-tuning)
System prompt : Prompt Portunus standard (celui en production)
Température : 0.1 (déterministe)
Thinking / reasoning : Désactivé (mode code, pas de débat interne)
Max tokens : 4000 par problème
Pas de retry : Un seul essai par problème
Harness : Basé sur le standard Aider, open-source

📎 Reproductible : Le harness de benchmark est disponible sur demande. Chaque résultat est vérifiable — exécutez le harness vous-même contre notre endpoint public.

Benchmarks Portunus JUIN 2026