Résultats complets, vérifiés et reproductibles. Dernière mise à jour : 16 juin 2026.
DeepSeek V4 Pro + prompting Portunus • température 0.1 • thinking désactivé
| Outil | Score Exercism | Prix / mois | Prix / 1M tokens |
|---|---|---|---|
| 🔱 Portunus (DeepSeek V4 Pro) | 67% | 29 $ | 0,87 $ |
| Claude Code (Opus 4.8) | ~78% * | 200 $+ | 25,00 $ |
| GPT-5.5 | ~77% * | 200 $+ | 30,00 $ |
| Gemini CLI (3.1 Pro) | ~72% * | Gratuit | — |
| DeepSeek V3.1 (raw) | ~65% * | — | 0,27 $ |
* Scores concurrents estimés depuis les rapports publics Aider Polyglot (2026). Le score Portunus est mesuré avec NOTRE harness open-source sur NOTRE endpoint réel. Les concurrents sont testés sur des benchmarks légèrement différents — cette comparaison est directionnelle, pas scientifique.
| Problèmes testés | 87 |
| ✅ Réussis | 58 |
| ❌ Échoués | 29 |
| ⚡ Temps moyen | 5,7 secondes |
| 💰 Coût total | 0,06 $ |
| 🔢 Tokens | 102 243 |
█ Réussi █ Échoué
6 problèmes « hard » passés — impressionnant :
zebra-puzzle et knapsack sont des classiques d'entrevue Google — Portunus les résout.
| Strings / manipulation | 90% |
| Math / algorithmes simples | 85% |
| Parsing / transformation | 70% |
| Structures de données | 55% |
| Algorithmes avancés | 32% |
On a rejoué 5 vrais PRs du projet Portunus v2 (SaaS Section 08, Next.js/TypeScript/Drizzle). Portunus a reçu la description du PR et le code AVANT la modification.
| PR | Description | Résultat |
|---|---|---|
| TS #1 | Ajouter validation Zod aux server actions | ✅ identique |
| TS #2 | Fix race condition avec SELECT FOR UPDATE SKIP LOCKED | ✅ équivalent |
| TS #3 | Refactor extract-hardware.ts (parser 08 71) | ✅ équivalent |
| TS #4 | Ajouter support fichiers IFC (extract-ifc.ts) | ⚠️ partiel |
| CSS #5 | Reskin cinématique BLUEPRINT NOIR (Tailwind) | ✅ fonctionnel |
Benchmark Exercism Python : 87 problèmes du track Python d'Exercism, du plus facile (hello-world) au plus dur (zebra-puzzle, forth).
Chaque problème est soumis à Portunus via son API (POST /v1/chat/completions). Le code généré est exécuté contre les tests Exercism officiels avec pytest.
Un problème est « réussi » si TOUS les tests passent. Aucune triche : pas de pré-processing, pas de post-processing, pas de retry.
📎 Reproductible : Le harness de benchmark est disponible sur demande. Chaque résultat est vérifiable — exécutez le harness vous-même contre notre endpoint public.
67% de la performance Claude à 1/7ᵉ du prix.
93% sur les tâches quotidiennes. 29$/mois. Hébergé au Québec.