L’expression “modèle du monde” est très utilisée en IA, mais elle cache souvent une question difficile :
Si un modèle apprend une représentation interne à partir d’observations, comment savoir si cette représentation préserve les vrais degrés de liberté du monde ?
C’est la question au coeur de When Does LeJEPA Learn a World Model? de David Klindt, Yann LeCun et Randall Balestriero. Le papier étudie LeJEPA, une version latente des approches JEPA, et prouve quand la représentation apprise n’est pas seulement utile, mais mathématiquement reliée aux variables latentes sous-jacentes.
La version courte :
LeJEPA peut retrouver linéairement les variables latentes du monde, à une rotation près, si et seulement si ces latents sont gaussiens.
Cela peut sembler étroit au départ. C’est en réalité une affirmation forte. Sous une classe spécifique mais importante de mondes, alignement plus régularisation gaussienne suffit à récupérer la structure qui compte pour le planning et la généralisation compositionnelle.
Le code est-il disponible ?
Oui, le code est disponible.
La page du projet renvoie au dépôt :
github.com/klindtlab/lejepa-identifiability
Ce n’est pas un dépôt vide. Il contient :
| Zone | Contenu |
|---|---|
| Expériences Python | mixings 2D, scaling, ablations generalized-normal, vérification de bornes, expériences Reacher sur pixels |
| Bibliothèque expérimentale | fonctions de mixing, modèles, pertes, métriques, génération de données, moteur d’entraînement |
| Scripts d’analyse | scripts de plots et d’agrégation pour reproduire les figures |
| Configs | fichiers YAML pour 2D, scaling, generalized-normal, grid et Reacher |
| Preuves Lean 4 | fichiers de vérification formelle des résultats théoriques |
| Colab | démonstration navigateur liée depuis la page du projet |
C’est important parce que le papier fait à la fois des affirmations empiriques et théoriques. Le dépôt public permet d’inspecter les simulations, de relancer les expériences principales et de lire la structure des preuves vérifiées par machine.
Ce que LeJEPA essaie d’apprendre
Le setup est simple mais profond.
Il existe un état caché du monde :
z
Le monde évolue dans le temps :
z' = m(z) + bruit
Mais l’apprenant n’observe pas z directement. Il observe une transformation non linéaire :
x = g(z)
L’apprenant voit donc des observations mélangées et doit apprendre une représentation qui retrouve la vraie structure latente.
LeJEPA entraîne un encodeur avec deux pressions :
- Alignement : des états proches ou liés temporellement doivent avoir des représentations prévisibles.
- Régularisation gaussienne : la distribution des embeddings doit ressembler à une gaussienne standard.
Dans l’objectif simplifié du papier, l’encodeur minimise le changement de représentation entre paires positives tout en respectant une contrainte gaussienne :
minimiser E[ || h(z') - h(z) ||^2 ]
sous contrainte h(z) ~ N(0, I)
En pratique, la contrainte de gaussianité est appliquée avec SIGReg, le Sketched Isotropic Gaussian Regularizer.
Le résultat central : l’identifiabilité linéaire
Le résultat théorique principal est l’identifiabilité linéaire.
Si les variables latentes du monde sont indépendantes et gaussiennes, et si elles évoluent par transitions stationnaires avec bruit additif, alors un encodeur LeJEPA optimal récupère les variables latentes à une rotation orthogonale près :
h(z) = Qz
où Q est une matrice orthogonale.
La partie “à une rotation près” est importante. Le modèle ne retrouve pas forcément le système de coordonnées exact du monde original, mais il retrouve une structure linéaire équivalente. Pour beaucoup de tâches aval, notamment le planning avec des coûts invariants par rotation, cela suffit.
C’est une affirmation plus forte que “la représentation marche bien sur un benchmark”. Elle dit que la représentation est structurellement alignée avec le vrai monde latent.
Pourquoi les latents gaussiens ne sont pas seulement pratiques
La partie la plus intéressante du papier est le résultat converse.
Les auteurs ne prouvent pas seulement que les mondes latents gaussiens fonctionnent. Ils prouvent que, dans leur classe de mondes stationnaires à bruit additif, la gaussienne est l’unique distribution latente où la garantie tient.
Cela change ma lecture du résultat.
Ce n’est pas :
Les latents gaussiens sont pratiques mathématiquement.
C’est plutôt :
La recette LeJEPA a une histoire d’identifiabilité précise, et cette histoire dépend du fait que le monde soit gaussien.
L’ablation empirique rend ce point visible. Quand la distribution latente est balayée dans une famille generalized-normal, la récupération atteint un pic net au cas gaussien. Les mondes heavy-tailed, Laplace-like ou uniform-like cassent la garantie.
Pour les systèmes IA pratiques, c’est un avertissement utile. Les objectifs de representation learning peuvent sembler robustes tout en dépendant fortement d’hypothèses distributionnelles.
L’argument Hermite en langage simple
La preuve utilise une décomposition spectrale sous la mesure gaussienne, basée sur les polynômes de Hermite.
Il n’est pas nécessaire de vivre dans la preuve pour comprendre l’intuition.
Sous une distribution gaussienne, les fonctions peuvent être décomposées par degré :
partie linéaire
partie quadratique
partie cubique
...
L’objectif d’alignement pénalise les degrés non linéaires plus fortement que le degré linéaire. Si l’embedding doit rester gaussien, la meilleure façon de satisfaire à la fois l’alignement et la gaussianité est de garder la partie linéaire et d’éliminer le mélange non linéaire.
C’est pourquoi l’encodeur appris devient une rotation des vraies variables latentes.
C’est le pont mathématique entre l’objectif et la revendication de modèle du monde. Le modèle n’est pas seulement encouragé à être lisse. Il est poussé vers la classe de représentations qui conserve la structure latente gaussienne.
Pourquoi cela compte pour le planning
Un modèle du monde n’est utile que s’il permet d’agir.
Le papier prouve que lorsque l’espace latent appris est identifiable linéairement à une transformation orthogonale près, le planning peut être optimal pour une classe de problèmes de contrôle à horizon fini dont les coûts sont invariants sous cette transformation.
Plus simplement :
Si la représentation apprise est une version tournée du vrai monde latent, et si le problème de contrôle ne dépend pas du système de coordonnées tourné, alors planifier dans l’espace appris peut être aussi bon que planifier dans le vrai espace latent.
C’est important parce que cela connecte representation learning et contrôle.
L’expérience Reacher sur pixels rend le point concret. Un encodeur entraîné avec Gaussian-OU apprend un espace latent identifiable, donc l’interpolation linéaire dans cet espace suit la trajectoire oracle en espace articulaire. Un encodeur entraîné sur trajectoires RL, non identifiable, dévie.
C’est le type de résultat dont la recherche sur les modèles du monde a besoin : pas seulement de belles représentations, mais une explication claire de quand ces représentations préservent la structure nécessaire au planning.
La vérification Lean 4 fait partie du message
Un détail que j’apprécie beaucoup : les résultats théoriques sont formellement vérifiés en Lean 4.
La page du projet indique que le build Lean a zéro obligation sorry, ce qui signifie qu’il n’y a pas de trou admis dans la chaîne de preuve au niveau Lean. Certains composants de fond sont axiomatizés parce que toute l’infrastructure mathématique nécessaire, notamment autour des polynômes de Hermite, n’est pas encore disponible dans Mathlib, mais les auteurs explicitent cette frontière.
C’est important pour la théorie en machine learning.
Les papiers ML combinent souvent des arguments denses de théorie de la mesure, d’optimisation et des esquisses de preuve informelles. La vérification formelle ne rend pas automatiquement un théorème important, mais elle change la surface de confiance. Elle force les auteurs à spécifier plus clairement les hypothèses, dépendances et étapes logiques.
Pour un papier sur l’identifiabilité, c’est cohérent. Tout l’enjeu est de savoir exactement quand la garantie tient.
Ce que montrent les expériences
La partie empirique vérifie la théorie sous plusieurs angles :
| Expérience | Objectif |
|---|---|
| Mixings non linéaires 2D | Montrer la récupération après spiral, shear et coupling |
| Scaling jusqu’à 1024 dimensions | Tester si la récupération survit en grande dimension |
| Comparaison de régulariseurs | Comparer SIGReg, VICReg et InfoNCE dans des conditions alignées |
| Ablation distributionnelle | Montrer que la récupération atteint un pic sur les latents gaussiens |
| Vérification de borne | Comparer la borne d’identifiabilité approximative aux déviations observées |
| Reacher pixels | Tester si les représentations identifiables améliorent le planning latent |
Le résultat de scaling est particulièrement utile : SIGReg et VICReg maintiennent une récupération très élevée jusqu’à 1024 dimensions dans le setup rapporté, tandis qu’InfoNCE se dégrade à grande échelle avec la configuration à largeur de noyau fixe.
Je ne lirais pas cela comme “InfoNCE est mauvais”. Je le lirais comme un rappel que les objectifs contrastifs et les objectifs imposant la gaussianité ont des modes d’échec différents.
Ce que je surveillerais
Ce papier est très théorique, donc les hypothèses comptent.
La garantie s’applique à une classe large mais précise de mondes :
- variables latentes gaussiennes
- transitions stationnaires
- transitions avec bruit additif
- représentation contrainte à être gaussienne
- identifiabilité linéaire à une rotation près
Ces hypothèses ne sont pas des faiblesses. Elles sont le contrat.
La question pratique est de savoir à quelle fréquence les problèmes réels peuvent être transformés dans un régime où ce contrat est approximativement vrai. Le papier aide avec un résultat d’identifiabilité approximative et des validations empiriques, mais l’écart entre mondes latents contrôlés et environnements réels désordonnés reste un endroit où le jugement d’ingénierie compte.
Pour les systèmes appliqués, je traiterais ce résultat comme un principe de conception :
Si vous voulez une représentation qui supporte le planning, ne demandez pas seulement si elle prédit bien. Demandez si l’objectif peut identifier les degrés de liberté latents sous des hypothèses défendables.
Pourquoi lire ce papier
La valeur du papier n’est pas de déclarer que LeJEPA est résolu.
La valeur est de donner une réponse précise à une question souvent floue :
Quand peut-on faire confiance à une représentation self-supervised comme modèle du monde ?
La réponse est conditionnelle, mais utile :
- Les mondes latents gaussiens donnent à LeJEPA une garantie d’identifiabilité linéaire.
- Les distributions latentes non gaussiennes cassent la garantie exacte.
- Les garanties approximatives se dégradent progressivement.
- L’identifiabilité linéaire suffit pour une classe importante de problèmes de planning.
- Le code et les preuves Lean sont disponibles pour inspection.
Cette combinaison de théorie, expériences, code et vérification formelle rend le travail remarquable.
Pour toute personne qui construit ou évalue des modèles du monde, le papier rappelle que la qualité d’une représentation ne se résume pas à la performance aval. Il faut aussi savoir si l’espace appris préserve la structure causale et géométrique nécessaire pour planifier.