Reproduire le pipeline AI Scientist-v2 en Python avec Claude API en 7 etapes - le guide 18 heures de debug que j aurais aime avoir | d-open.org

Pourquoi reproduire AI Scientist-v2 cette semaine

Le 26 avril 2026, Sakana AI a annonce qu un papier integralement genere par AI Scientist-v2 etait passe la revue par les pairs au workshop d ICLR avec des scores de 6/7/6. Le repo source est publie en MIT et l ensemble est reproductible avec un budget modeste. Notre analyse de l annonce detaille les enjeux, ce guide se concentre sur la mise en oeuvre.

Sur les 4 runs que j ai pilotes en avril 2026 dans des laboratoires francais (un en bioinformatique, deux en ML appliquee, un en sciences cognitives), les blocages les plus frequents tournent autour de la configuration de l environnement, de l indexation Semantic Scholar et de la gestion de la fenetre de contexte. Ce guide condense ces 18 heures de debug.

Etape 1 : cloner le repo et provisionner l environnement

Le repo officiel se trouve sur GitHub : github.com/sakana-ai/ai-scientist-v2. Il necessite Python 3.12, environ 8 Go de disque pour les dependances, et une cle API Claude ou OpenAI. Sur Mac M-series ou Linux x86, l installation prend moins de 15 minutes.

git clone https://github.com/sakana-ai/ai-scientist-v2.git
cd ai-scientist-v2
python3.12 -m venv .venv
source .venv/bin/activate
pip install -e ".[dev,gpu]"

# Cles API
export ANTHROPIC_API_KEY="sk-ant-..."
export OPENAI_API_KEY="sk-..."  # optionnel, pour fallback
export SEMANTIC_SCHOLAR_API_KEY="..."

# Verification
python -m ai_scientist.diagnostics --check-all

Le diagnostic verifie que les cles API sont valides, que les versions de torch et faiss sont compatibles, et que les modeles latex (TeXLive) sont disponibles pour la generation finale du PDF.

Etape 2 : configurer le moteur de raisonnement (Claude ou GPT)

Le fichier config/llm.yaml centralise tous les parametres LLM. Trois decisions a prendre : le modele d ideation, le modele d evaluator, et le modele de redaction LaTeX.

# config/llm.yaml
ideation:
  provider: anthropic
  model: claude-opus-4-7
  temperature: 0.9
  max_tokens: 4096

evaluator:
  provider: anthropic
  model: claude-opus-4-7
  temperature: 0.2
  max_tokens: 2048

writer:
  provider: anthropic
  model: claude-opus-4-7
  temperature: 0.4
  max_tokens: 8192

Pour les runs en mode economique, j utilise Claude Sonnet 4.5 sur l ideation et Opus 4.7 uniquement pour l evaluator. Le cout passe de 600 EUR a 280 EUR par run avec une perte de qualite limitee (5 a 8 pourcent sur le score reviewer simule).

Etape 3 : indexer un corpus Semantic Scholar dans votre domaine

L evaluator agentique a besoin d un index vectoriel des papiers existants pour rejeter les hypotheses redondantes. Pour un domaine donne (par exemple "continual learning" ou "protein folding"), telechargez 10 000 a 50 000 papiers via l API Semantic Scholar et embedez-les avec un modele type text-embedding-3-large ou BAAI/bge-large-en.

from ai_scientist.indexer import SemanticScholarIndexer

indexer = SemanticScholarIndexer(
    domain="continual learning",
    embedding_model="BAAI/bge-large-en",
    max_papers=20000,
    output_path="./indices/cl-2026.faiss"
)
indexer.build()
print(f"Indexed {indexer.count} papers")

Sur un MacBook M3 Pro, l indexation de 20 000 papiers prend environ 90 minutes. Sur un H100 loue, elle tombe a 12 minutes. Reservez 8 Go de RAM pour FAISS.

🎤 Avis d expert

“La qualite de l index Semantic Scholar conditionne 60 pourcent de la qualite finale du papier. Un index trop petit produit des hypotheses naives, un index trop bruite genere des collisions. Visez 20 000 papiers cibles bien filtres plutot que 100 000 generaux.”

— Pr. Yann Le Bars, INRIA Saclay

Etape 4 : lancer l ideation et filtrer les hypotheses

L etape d ideation produit 20 a 50 hypotheses scientifiques candidates a partir d un prompt seed. L evaluator agentique les filtre ensuite contre l index pour ne retenir que les 3 a 5 plus prometteuses.

python -m ai_scientist.ideate \
  --seed-topic "continual learning catastrophic forgetting" \
  --num-hypotheses 30 \
  --evaluator-strict True \
  --index ./indices/cl-2026.faiss \
  --output ./runs/2026-04-27-cl/hypotheses.json

L evaluator strict rejette environ 80 pourcent des candidates. Ce taux peut sembler eleve mais c est intentionnel : on prefere ne retenir que les hypotheses a vraie originalite. Inspectez manuellement le fichier hypotheses.json pour valider la selection avant de poursuivre.

Etape 5 : configurer l environnement experimental GPU

Le pipeline genere du code Python qui doit s executer sur un GPU. Le plus simple : louer un H100 chez Vast.ai (~ 18 EUR/h) ou utiliser un compte Scaleway / OVHcloud avec instance GPU. Configurez l acces SSH et installez le runtime ai-scientist-runner qui ecoute les jobs.

# Sur le GPU distant
pip install ai-scientist-runner
ai-scientist-runner serve --port 7050 --token "votre-secret"

# Sur la machine de pilotage
export AI_SCIENTIST_GPU_HOST="gpu.example.com:7050"
export AI_SCIENTIST_GPU_TOKEN="votre-secret"

L isolation reseau est importante : ne JAMAIS exposer le runner sur Internet sans authentification. Utilisez WireGuard ou Tailscale pour creer un tunnel chiffre entre votre machine et le GPU. Sur les 4 runs pilotes, j ai eu un incident de scan de port en 2 jours sur une instance Vast.ai mal configuree.

Etape 6 : lancer le pipeline complet et superviser

L execution du pipeline complet sur une hypothese prend entre 18 et 36 heures wall-clock. Lancez-la en arriere-plan avec un dashboard de supervision pour detecter rapidement les blocages.

python -m ai_scientist.run_experiment \
  --hypothesis-id 7 \
  --hypotheses-file ./runs/2026-04-27-cl/hypotheses.json \
  --max-iterations 12 \
  --gpu-host $AI_SCIENTIST_GPU_HOST \
  --output ./runs/2026-04-27-cl/exp-7/

# Dashboard supervision
python -m ai_scientist.dashboard --port 8080

Le dashboard montre la progression de chaque iteration, le cout cumule API, l usage GPU, et les checkpoints intermediaires. Surveillez surtout le cout API : si vous depassez 50 pourcent du budget en moins de 30 pourcent du temps, c est qu un agent boucle. Tuez le run et inspectez les logs.

600 €

Cout median par run

26h

Wall-clock median

Iterations max

Hypotheses retenues / 30

LLM moteurs configures

8 Go

RAM minimale FAISS

Etape 7 : reviser le manuscrit et soumettre

Le pipeline produit un PDF LaTeX dans ./runs/.../paper.pdf. C est un manuscrit complet : abstract, introduction, related work, methodologie, experiences, discussion, conclusion. Mais c est un brouillon, pas un papier final.

Trois sections demandent une revision humaine systematique : related work (verifier que toutes les citations sont reelles - le risque d hallucination est non nul), discussion (s assurer que les conclusions sont epistemologiquement honnetes), et limitations (l IA tend a sous-estimer les limites methodologiques).

Pour la soumission, suivez les regles de la conference cible. ICLR, NeurIPS et ICML auront publie d ici l ete 2026 des politiques explicites sur les soumissions IA-assistees. Tracez systematiquement la part humaine vs IA dans un journal de bord pour repondre aux questions des reviewers en cas de challenge.

🎤 Avis d expert

“La revision humaine est non negociable. Sur les 12 papiers que j ai vu sortir d AI Scientist-v2, 4 contenaient des references hallucinees et 2 avaient des erreurs methodologiques discrete mais critiques. Compter 4 a 8 heures de revue par manuscrit.”

— Antoine Mariotti, Directeur R&D chez Owkin

Schema decisionnel : quand utiliser AI Scientist-v2

Pour les sujets complementaires : migrer son stack Claude vers Vertex AI TPU permet de baisser le cout des runs API de 18 a 24 pourcent. Le decryptage des risques cyber post-deal Google-Anthropic couvre les questions de surete des runs longs sur GPU loue. Pour les questions de tooling cote developpeur, voir aussi notre guide workflow developpeur Codex plugins.

Besoin d aide pour reproduire AI Scientist-v2 ?

d-open accompagne les laboratoires francais sur la mise en oeuvre du pipeline. Audit de faisabilite gratuit en 45 minutes.

Demander mon audit →

FAQ

Combien coute un run complet AI Scientist-v2 ?

Entre 200 et 800 euros par hypothese complete. Le poste principal est l API LLM (Claude Opus 4.7 ou GPT-5.5) qui represente 60 a 75 pourcent du cout. Le reste se partage entre GPU H100 loue (15 a 25 EUR/h sur 18-36h) et stockage temporaire.

Faut-il un GPU pour le pipeline ?

Le pipeline lui-meme tourne sans GPU (les LLM sont via API), mais les experiences ML qu il genere ont besoin d un GPU. Un H100 loue chez Vast.ai (15-25 EUR/h) ou un compte Scaleway avec instance GPU suffit largement.

Le code est-il vraiment open source MIT ?

Oui, l integralite du code AI Scientist-v2 est publie sous license MIT sur GitHub. Vous pouvez l adapter, le modifier et l utiliser dans des projets commerciaux sans contrainte. Sakana demande seulement de citer le papier original.

Quel modele LLM choisir : Claude ou GPT ?

Claude Opus 4.7 est recommande pour la rigueur scientifique (meilleur sur l auto-critique des hypotheses, taux d hallucination plus bas). GPT-5.5 reste comparable et legerement moins cher. DeepSeek V4-Pro est une alternative low-cost mais avec un taux d echec experimental plus eleve.

Lancez votre premier run AI Scientist-v2

d-open intervient sur Paris, Lyon, Toulouse et a distance. Reservez un creneau pour cadrer la faisabilite dans votre domaine.

Reserver mon creneau →

Services

Villes populaires

Technologies

Ressources

Reproduire le pipeline AI Scientist-v2 en Python avec Claude API en 7 etapes - le guide 18 heures de debug que j aurais aime avoir