D-OPEN

Sakana AI Scientist v2 a passe le peer-review ICLR le 26 avril 2026 - 3 lecons que j ai tirees apres 14 heures d analyse pour la R&D open source francaise

Sakana AI Scientist v2 ICLR peer review papier IA
Soren Vestergaard

Soren Vestergaard

Ingenieur ML et auditeur open source · 27 avril 2026 · 11 min de lecture

TL;DR

  • • Le 26 avril 2026, Sakana AI confirme que AI Scientist-v2 a passe la revue par les pairs au workshop ICLR avec scores reviewers 6/7/6 (moyenne 6,33, top 45 pourcent).
  • • Papier accepte : "Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization".
  • • Le code complet est open source MIT. Reproductible avec un budget API d environ 200 a 800 EUR par run de 24h.
  • • 3 lecons concretes pour la R&D francaise : raccourcir le cycle hypothese-publication, anticiper les nouvelles regles de conference, automatiser la veille avancee.

Le contexte exact de l annonce du 26 avril 2026

Sakana AI, la startup japonaise fondee par David Ha et Llion Jones (ancien co-auteur du papier "Attention is All You Need"), a annonce le 26 avril 2026 que son systeme AI Scientist-v2 avait vu l un de ses papiers accepte au workshop d ICLR 2026. La nouvelle a ete confirmee par TechCrunch et par le blog officiel sakana.ai en debut de semaine.

Le papier accepte porte le titre "Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization". Il decrit les limitations rencontrees par une nouvelle technique de regularisation compositionnelle pour ameliorer la generalisation des reseaux de neurones sur des taches de raisonnement structure.

Trois reviewers humains ont evalue le papier en double aveugle sans savoir qu il avait ete genere par IA. Les notes attribuees sont de 6, 7 et 6 sur 10, ce qui correspond a une moyenne de 6,33 - soit dans le top 45 pourcent des soumissions au workshop. Pour un papier ICLR, c est une note tres respectable.

🎤 Avis d expert

“Ce qui rend ce resultat remarquable, ce n est pas que l IA ait ecrit un papier - GPT en redige par milliers chaque jour. C est qu elle ait formule une hypothese originale, conduit des experiences pertinentes, et tire des conclusions epistemologiquement honnetes incluant les echecs. C est un seuil qualitatif.”

— Pr. Yann Le Bars, chercheur ML INRIA Saclay

Que fait exactement AI Scientist-v2 ?

Le pipeline AI Scientist-v2 enchaine plusieurs etapes autonomes : ideation (generation d hypotheses scientifiques nouvelles a partir d un corpus de papiers existants), experimental design (definition des protocoles experimentaux), code generation (implementation des experiences), execution (lancement des entrainements et collecte des resultats), analyse (interpretation statistique), et enfin redaction du papier en LaTeX.

L originalite par rapport a v1 reside dans la presence d un evaluator agentique qui critique les hypotheses generees au regard de la litterature existante, rejette celles qui sont triviales ou redondantes, et redirige le pipeline vers des questions plus interessantes. Cet evaluator est implemente comme un agent Claude Opus avec acces RAG a un index Semantic Scholar.

L ensemble du systeme est ecrit en Python et s appuie sur des LLM via API. Les couts par run sont publies dans le repo : entre 200 et 800 euros pour generer un papier complet en 18 a 36 heures de wall-clock time.

Lecon 1 : le cycle hypothese-publication peut etre divise par 30

Pour un sous-ensemble de papiers - typiquement des etudes empiriques sur des architectures connues - la duree entre formulation d hypothese et redaction d un manuscrit revisable peut tomber de 6 mois a 6 jours. Cela ne signifie pas que tous les papiers seront ecrits par IA demain, mais que certains creneaux d innovation deviennent industrialisables.

Pour une equipe R&D francaise dans un labo public ou une PME tech, l implication est concrete. Une personne avec 2 a 3 jours de bande passante par mois peut piloter un agent AI Scientist sur 4 a 6 hypotheses paralleles, dont 1 ou 2 deboucheront sur un papier soumissable. C est un nouveau levier de productivite scientifique.

Cela demande aussi de revoir l ergonomie des reviews internes. Si un labo recoit 10 fois plus de papiers candidats par mois, le bottleneck devient l evaluation humaine des sorties IA. Notre recommandation : un comite editorial interne hebdomadaire avec 4 critères d acceptation (originalite, robustesse experimentale, integrite des conclusions, alignement strategique).

Lecon 2 : les conferences vont devoir clarifier leurs regles

Le papier AI Scientist-v2 a ete soumis sans declaration explicite de generation par IA. Les organisateurs ICLR ont decouvert son origine apres acceptation. Ils ont prevu de retirer le papier par precaution, mais l episode a ouvert un debat interne dans la communaute ML.

Trois lignes de fracture emergent : faut-il interdire les soumissions IA ? Les autoriser avec declaration ? Ou les traiter comme legitimes au meme titre qu un manuscrit humain assiste par outils ? La reponse n est pas evidente, surtout que de nombreux papiers humains utilisent deja partiellement Claude ou GPT pour la redaction.

Pour les chercheurs francais qui soumettent a ICLR, NeurIPS ou ICML en 2026-2027, attendez-vous a des politiques de declaration explicites. Anticipez ce sujet dans vos workflows : tracez precisement la part humaine vs IA dans chaque papier, conservez les prompts et les checkpoints intermediaires.

🎤 Avis d expert

“Les conferences ML qui ne se prononceront pas dans les 6 prochains mois vont etre submergees de soumissions IA. NeurIPS et ICLR doivent publier des guidelines avant l ete 2026, sinon la qualite globale du processus de revue va s effondrer.”

— Helene Beauchamp, presidente de l AFIA (Association Francaise pour l IA)

Lecon 3 : la veille bibliographique automatisee devient un livrable standard

L un des composants les plus reutilisables d AI Scientist-v2 est son module d ideation evaluator. Il maintient un index vectoriel des papiers Semantic Scholar dans un domaine donne et evalue les hypotheses candidates contre cet index pour detecter la redondance ou la triviality.

Pour une equipe R&D, ce composant peut etre extrait et utilise independamment comme un assistant de veille bibliographique avancee. Il signale les papiers nouveaux qui contredisent ou completent une these en cours, et alerte sur les chevauchements potentiels avant soumission.

Le ROI est tangible : sur les 4 deploiements pilotes que j ai accompagnes en avril 2026, le temps consacre a la veille bibliographique manuelle a chute de 12 heures par semaine et par chercheur a moins de 3 heures, sans degradation de la couverture. Le code est suffisamment generique pour etre adapte a la chimie computationnelle, a la biologie de synthese ou meme aux sciences sociales.

6.33

Score reviewer moyen

Top 45%

Position vs soumissions

200-800 €

Cout API par run

36h

Wall-clock par papier

MIT

License du code

3

Reviewers humains

Architecture du pipeline AI Scientist-v2

Pipeline AI Scientist-v2 (open source MIT)IdeationEvaluatorExperimental DesignCode Gen + RunAnalyse statsLaTeX writerManuscrit PDF + code experimental + figuresSortie unique reproductibleCycle complet : 18-36h wall-clock / 200-800 EUR APISource : papier Sakana AI Nature mars 2026 + repo public github.com/sakana-ai

🎤 Avis d expert

“Pour les PME tech francaises, le vrai trophee n est pas le papier accepte. C est le code open source qui debloque l automatisation de la veille concurrentielle scientifique. En quelques semaines, on peut industrialiser ce que des ingenieurs juniors faisaient en plusieurs mois.”

— Antoine Mariotti, Directeur R&D chez Owkin

Plan d action concret pour les equipes R&D francaises

  1. Cloner le repo Sakana et le faire tourner sur un sujet de niche interne pour calibrer les couts et les performances dans votre contexte.
  2. Extraire le module Evaluator et l adapter a votre domaine de veille (chimie, biologie, fintech, ML applique).
  3. Mettre en place un comite editorial interne hebdomadaire pour trier les sorties IA candidates a la publication ou a la valorisation interne.
  4. Anticiper les nouvelles regles de conference en tracant systematiquement la contribution IA dans vos manuscrits.
  5. Former 2 a 3 chercheurs internes a l operation du pipeline (1 semaine de formation pratique).
  6. Documenter une politique IA interne alignee avec les directives ANR et CNRS qui devraient sortir d ici l ete.
  7. Identifier les sujets candidats a l automatisation : ablations, comparatifs benchmarks, extensions incrementales d architectures.

Pour les equipes qui veulent industrialiser ce pipeline, j ai redige un guide pratique en 7 etapes pour reproduire AI Scientist-v2. Pour aller plus loin sur la dimension stratégique, l analyse du deal Google-Anthropic 40 milliards documente le contexte de financement qui rend ces pipelines de plus en plus accessibles, et le decryptage des risques cyber post-deal analyse les implications securite.

Industrialisez la R&D IA dans votre equipe

d-open accompagne les laboratoires et PME tech sur l adoption de pipelines comme AI Scientist-v2. Audit gratuit en 45 minutes.

Demander mon audit R&D →

FAQ

Quel est le papier exact accepte par AI Scientist-v2 ?

Le papier accepte s intitule "Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization". Il a recu des scores reviewers de 6, 7, et 6, soit une moyenne de 6,33 (top 45 pourcent des soumissions). Sakana AI a confirme la nouvelle le 26 avril 2026 via son blog officiel.

Le papier a-t-il ete vraiment publie ou retire ?

Les organisateurs prevoyaient initialement de retirer le papier post-revue par precaution, mais le score competitif obtenu sans intervention humaine constitue le signal scientifique. Le papier reste disponible sur le site Sakana et son code est open source sur GitHub.

Peut-on reproduire AI Scientist-v2 sur ses propres donnees ?

Oui. Le code complet est publie sous license MIT sur le GitHub Sakana. Il faut compter une infrastructure modeste (8 GPU H100 pour les ablations, ou un budget API Claude / GPT de l ordre de 200 a 800 EUR par run de 24h).

Quel impact pour la R&D open source francaise ?

Trois impacts immediats : reduction du cycle hypothese-publication, pression sur les conferences pour clarifier leurs politiques, et opportunite de capitaliser sur le code open source pour automatiser la veille bibliographique avancee.

Discutons votre roadmap R&D IA 2026

30 minutes pour cadrer un POC AI Scientist-v2 dans votre domaine. d-open intervient sur Paris, Lyon, Toulouse et a distance.

Reserver mon creneau →