World Models Vivantiels : Modéliser sans refermer le monde

Volet 3 : l’ontologie

La question des world models devient ontologique. Elle ne consiste plus seulement à savoir comment modéliser le monde, mais comment le modéliser sans le refermer.

Un world model n’est jamais neutre. Il découpe le réel, sélectionne des variables, stabilise des relations, réduit l’incertitude. Il produit donc nécessairement une certaine fermeture.

Or le vivant, lui, repose sur l’ouverture, la transformation, l’émergence. Plus la modélisation devient puissante, plus cette tension devient centrale. Ce n’est pas un défaut des architectures actuelles. C’est la condition de toute modélisation. Mais c’est aussi le point exact où elle doit devenir consciente d’elle-même.

Les volets précédents ont montré où cette tension se loge dans les architectures : dans la fonction d’évaluation, dans l’espace latent, dans la frontière agent-milieu. Mais la question va plus loin. Il ne suffit pas de repenser les composants. Il faut interroger le geste même de modéliser. Car ce geste, selon l’ontologie qui le porte, peut ouvrir ou refermer le monde qu’il prétend décrire.

Le problème n’est plus la qualité de la représentation. Il devient la capacité du modèle à préserver l’ouverture du monde qu’il modélise.

La distinction entre deux gestes, dès lors, devient structurante. La modélisation classique opère par capture. Elle cherche à contenir le monde dans une structure suffisamment fidèle pour qu’on puisse agir dessus.

Le monde y est un objet à saisir. Le modèle y est un outil de maîtrise. La précision de la représentation est le critère de réussite. Ce geste est puissant. Il a produit des résultats considérables. Mais il porte en lui une tendance à la fermeture : plus le modèle est précis, plus il fixe ce qu’il représente. Plus il maîtrise, plus il rigidifie.

Le geste d’accompagnement est d’une autre nature. Il ne cherche pas à contenir le monde mais à se tenir avec lui. Le modèle ne vise plus la correspondance exacte avec un état du réel, mais la justesse d’une relation dans un milieu mouvant. Il ne s’agit plus de capturer le monde tel qu’il est, mais de rester en prise avec un monde qui devient. La modélisation ne fixe plus. Elle accompagne.

Cette distinction n’est pas métaphorique. Elle a des conséquences architecturales.
Un world model conçu comme geste de capture sera optimisé pour la fidélité de sa représentation à un instant donné.
Un world model conçu comme geste d’accompagnement sera optimisé pour sa capacité à rester viable dans la durée, à travers les transformations du milieu.
L’un vise la précision, l’autre vise la tenue.
Or la tenue suppose l’inachèvement. La pensée technique dominante ne sait pas encore penser cela.

Un modèle qui se croit achevé cesse d’apprendre. Non pas au sens où il ne reçoit plus de données (il peut continuer à en ingérer indéfiniment ) mais au sens où il a fixé les catégories à travers lesquelles il accueille le réel. Il ne se laisse plus déplacer. Il classe, il trie, il range dans des structures qui ne bougent plus. Il devient normatif : le monde doit rentrer dans le modèle, et non l’inverse.
Ce qui ne rentre pas est traité comme bruit, comme anomalie, comme erreur. Le modèle achevé ne reconnaît plus ce qui le dépasse. Il l’élimine.

C’est exactement ce que fait un système qui sur-apprend : il colle tellement à ses données passées qu’il ne peut plus accueillir la nouveauté.
Mais le problème est plus profond que l’overfitting. C’est un problème ontologique.

Un modèle qui se ferme ne décrit plus un monde vivant. Il décrit le monde qu’il a décidé d’avoir. Il impose sa structure au lieu de se laisser transformer par ce qu’il rencontre.
L’inachèvement, dans cette perspective, n’est pas un stade provisoire en attente de complétude.
Il est la condition même d’un rapport vivant au réel. Un modèle vivantiel ne serait jamais complet, non par faiblesse, mais par fidélité à son objet. Sa perméabilité serait sa forme d’intelligence et sa capacité à être surpris son critère de qualité.

Se pose alors une question que les architectures actuelles n’abordent pas : quelle relation un world model entretient-il avec l’expérience qu’il modélise ?

Dans un cadre mécaniste, la réponse est simple. Le modèle représente le monde. L’expérience est la source des données. Le modèle apprend des données, puis il se substitue à l’expérience pour prédire et décider. Le rapport est extractif. L’expérience est un matériau. Le modèle en est le produit. Une fois le modèle construit, l’expérience devient en principe superflue.

Dans une perspective vivantielle, ce rapport change de nature. L’expérience n’est pas seulement la source du modèle. Elle est ce qui continue à le transformer. Le world model ne remplace pas l’expérience. Il reste en dialogue avec elle, ne se substitue pas au milieu et maintient un couplage avec lui.

L’expérience n’est jamais épuisée par le modèle, parce que le milieu vivant produit continuûment de la nouveauté, de l’imprévu, de l’irréductible. Le modèle qui croit avoir capturé le monde a déjà commencé à le perdre.

C’est pourquoi un world model vivantiel ne pourrait jamais être clos. Il resterait structurellement ouvert, non par défaut de conception mais par fidélité à son objet. Son inachèvement serait sa qualité. Sa capacité à se laisser surprendre serait sa forme d’intelligence. Il ne chercherait pas la complétude, mais la perméabilité.

On pourrait formuler cela comme un principe :

Un world model n’est vivantiel que s’il préserve dans sa structure la possibilité d’être transformé par ce qu’il modélise.

Un modèle qui ne peut plus être surpris n’est plus un modèle du vivant. Il est devenu une image morte d’un monde qu’il a figé.

La modélisation ne serait plus un geste de capture. Elle deviendrait un geste d’accompagnement. Et le world model ne serait plus seulement un simulateur du monde. Il deviendrait une intelligence de l’accordage, non pas malgré son inachèvement, mais par lui-même.

Si l’accordage devenait un principe architectural des world models

Volet 2 : l’Architecture

Tout world model porte une ontologie implicite. Il suppose ce qu’est un agent, ce qu’est un environnement, ce qu’est une action, ce qu’est apprendre. Les architectures actuelles reposent encore largement sur une ontologie mécaniste. Le monde y est composé d’objets séparés. L’agent y est distinct de l’environnement. L’apprentissage y consiste à prédire et à optimiser. La performance y est définie par la maximisation d’une fonction.

Ce cadre fonctionne dans des environnements contrôlés. Il devient plus fragile dès que l’on s’approche du vivant.

Un milieu vivant n’est pas un espace stable peuplé d’entités indépendantes. Il est fait de relations, de dépendances, d’équilibres instables, de transformations continues. L’intelligence qui s’y déploie ne consiste pas à maximiser une variable, mais à maintenir une cohérence entre tensions multiples : stabilité et plasticité, robustesse et adaptabilité, cohérence interne et ouverture, économie d’action et capacité de réorganisation. Elle relève moins du calcul optimal que de l’ajustement. On pourrait appeler cela l’accordage.

Si l’accordage devenait un principe architectural, plusieurs éléments des world models devraient être repensés.

La fonction d’évaluation, d’abord. Aujourd’hui, elle oriente l’apprentissage vers la maximisation d’un objectif. Une architecture inspirée du vivant chercherait plutôt à maintenir un équilibre dynamique entre contraintes. La réussite ne serait plus un maximum, mais une tenue dans la variation. Le système ne viserait pas une solution optimale, mais une adaptation viable. Il serait évalué sur sa capacité à rester fonctionnel malgré des perturbations, à réorganiser ses représentations, à modifier ses stratégies, à préserver une cohérence globale dans un environnement changeant. La performance deviendrait la qualité d’un équilibre, non l’atteinte d’un sommet.

L’espace de représentation, ensuite. Les architectures actuelles cherchent à décomposer le réel en variables indépendantes. Or un milieu vivant est un tissu de relations. L’espace latent ne devrait plus représenter seulement des objets ou des états, mais des couplages, des dépendances, des tensions. Comme un musicien n’entend pas des notes isolées mais des intervalles, l’espace latent vivantiel ne décrirait plus ce qui existe séparément, mais ce qui vibre ensemble. La représentation deviendrait relationnelle, structurée par des interactions plutôt que par des entités isolées.

L’apprentissage lui-même changerait de sens. Apprendre ne consisterait plus seulement à améliorer la précision d’une prédiction, mais à augmenter la capacité d’ajustement dans un environnement changeant. Un système vivantiel ne serait pas évalué sur sa capacité à prévoir correctement un monde stable, mais sur sa capacité à rester viable lorsque ce monde se transforme. L’intelligence ne serait plus seulement prédictive. Elle deviendrait adaptative. Un world model mécaniste apprend un monde. Un world model vivantiel apprend à rester viable dans un monde changeant.

La frontière entre agent et environnement devrait également être repensée. Dans un cadre mécaniste, l’agent modélise un monde extérieur. Dans une perspective vivantielle, l’agent et le milieu co-évoluent. L’intelligence émerge de cette relation, non d’un calcul sur le monde mais d’une co-adaptation avec lui. Le world model ne serait plus seulement une représentation du monde, mais une modélisation de la dynamique agent-milieu. L’architecture elle-même deviendrait relationnelle.

Ce déplacement ne supprime pas la prédiction, ni l’optimisation. Il les replace dans un cadre plus large. La prédiction devient un moment de l’ajustement. L’optimisation devient locale et provisoire. Ce qui importe n’est plus la meilleure solution dans un monde figé, mais la capacité à rester juste dans un monde vivant.

On pourrait appeler architecture vivantielle une famille de world models conçus non pour optimiser une représentation du monde, mais pour maintenir une viabilité relationnelle dans un milieu changeant. La fonction d’évaluation y porterait sur des équilibres dynamiques entre tensions multiples. L’espace latent y représenterait des relations plutôt que des entités. L’apprentissage y serait orienté vers la co-adaptation. La frontière entre agent et environnement y serait poreuse et dynamique.

Le problème des world models ne serait plus seulement technique. Il deviendrait ontologique. Et le world model ne serait plus seulement un simulateur. Il deviendrait une intelligence de l’accordage.

World models : le vivant vous attend

Pour une ontologie du réel dans l’intelligence artificielle — Tentative pour relier ce qui ne l’est pas et qui manque aujourd’hui : world models, anthropologie, politique, économie et éducation

Par Yann Vibert Philosophe, pédagogue, entrepreneur, fondateur de la cybernité accordée et de l’école éconeurocorporelle .

Volet 1 : Le constat

Vous construisez des modèles du monde. Des architectures capables de simuler des situations, d’anticiper des dynamiques, d’agir dans des environnements ouverts. Vous appelez cela des world models. C’est un tournant majeur. L’intelligence artificielle ne se contente plus de reconnaître des formes ou de produire du langage. Elle cherche désormais à comprendre le réel.

Mais quel réel ?

Vos modèles portent une ontologie. Ils ne le disent pas, mais ils le font. Chaque fonction de récompense définit ce qui compte. Chaque espace latent découpe le monde d’une certaine manière. Chaque boucle d’apprentissage suppose une conception de l’action, de l’agent, de l’environnement. Ces choix ne sont pas neutres. Ils dessinent un monde.

Le plus souvent, le monde qu’ils dessinent est celui de la modernité mécaniste. Des objets séparés. Des agents autonomes. Des interactions calculables. Une réalité stable qu’on peut optimiser. Cela fonctionne dans un laboratoire. Cela échoue dans le vivant.

Car le monde réel n’est pas cela. Il est fait de flux, d’interactions, d’équilibres instables, de milieux traversés. L’océan où navigue le surfeur n’est pas un ensemble de variables à optimiser. C’est un milieu vivant où l’intelligence consiste à s’accorder, pas à dominer, ni à forcer. Une forêt tropicale n’est pas une base de données d’arbres. C’est un réseau de relations dont aucun modèle fondé sur des entités séparées ne peut rendre compte.

Et ce que pose ma philosophie du vivant, à travers le concept de corpensance, c’est précisément ce que vos world models ne savent pas encore modéliser : l’accordage. Cette capacité d’un corpensant à se situer dans un milieu mouvant, à percevoir des dynamiques avant de les calculer, à répondre par ajustement plutôt que par optimisation.

Regardez vos architectures. Quand un agent RL apprend dans un environnement, sa reward function définit un monde où l’objectif est unique et le succès mesurable. Mais dans un milieu vivant, les objectifs sont multiples, contradictoires, évolutifs. La bonne action n’est pas celle qui maximise une variable. C’est celle qui maintient un équilibre entre des tensions. Ce que j’appelle la co-vivance.

Quand vos world models construisent des représentations latentes, ils découpent le réel en dimensions indépendantes. Mais le réel ne se découpe pas ainsi. Tout y est lié. Le surfeur ne sépare pas la vague, le vent, son équilibre et son intention. Il les perçoit comme un tout dynamique. L’enjeu pour vos architectures n’est pas seulement d’augmenter la dimensionnalité des espaces latents. Il est de penser la relation entre les dimensions.

Quand vos systèmes apprennent par prédiction du futur, ils supposent que le monde est prédictible. Mais le vivant n’est pas prédictible. Il est émergent. La mangrove ne prédit pas la tempête cyclonique, ni son degré de puissance. Elle absorbe, s’adapte, se reconfigure. Vos modèles ont besoin d’une intelligence de l’adaptation, pas seulement de la prédiction.

Ce dont vos world models ont le plus besoin, c’est d’une ontologie du vivant. Pas d’une philosophie abstraite. D’une manière différente de concevoir ce qu’est un monde, un agent, une action, un apprentissage.

Vous êtes déjà en train d’y aller, mais sans ontologie explicite

Dans cette ontologie, qui marque un changement de rapport au monde, un agent n’est pas une entité isolée qui agit sur un environnement. C’est un être-milieu, un nœud de relations, traversé par des flux, dépendant de son contexte. L’humain lui-même n’est plus un individu autonome. Il est un plurividu, un être composé, évolutif, situé dans des réseaux biologiques, technologiques, culturels.

Aussi, l’action n’est pas l’application d’un calcul à un monde extérieur. Elle est un ajustement, ce que j’appelle la corpensance : une pensée qui ne se sépare pas du corps, du milieu, de la perception. Celui qui agit ainsi est toujours un corpensant. L’intelligence ne vient pas après la perception. Elle est la perception elle-même en train de s’accorder.

L’apprentissage n’est pas,£ non plus, l’accumulation de données. Il est une co-évolution. L’apprenant se transforme avec son milieu. Le milieu se transforme avec l’apprenant. C’est ce que les créateurs d’embodied AI cherchent sans le nommer : une intelligence incarnée, située, relationnelle.

Deux trajectoires s’ouvrent devant vous. La première réduit le monde à une simulation optimisable. Le réel devient un espace de calcul. L’humain s’y adapte comme opérateur ou utilisateur. C’est la voie de l’extraction : le monde transformé en données, le vivant réduit à des variables, l’intelligence confisquée par ceux qui possèdent les modèles.

La seconde trajectoire conçoit les world models comme des partenaires d’une intelligence distribuée. Les systèmes artificiels élargissent la perception. Les humains y entrent avec leur expérience vécue, leur sens du milieu. Le monde reste ouvert, vivant, relationnel. C’est la voie de la co-vivance.

La différence ne tient pas seulement à l’architecture technique. Elle tient à l’ontologie qui la guide. Une ontologie de contrôle produit des systèmes dominants. Une ontologie relationnelle produit des systèmes coopératifs. Le choix est civilisationnel.

Les Lumières ont pensé séparément l’éducation, l’économie, la liberté, le politique. L’époque cyberne ne peut plus se permettre cette fragmentation. Tout est lié : la manière de modéliser le monde détermine la manière de l’habiter. Vos choix techniques sont des choix ontologiques. Vos architectures sont des propositions de monde.

Les world models marquent le moment où l’IA cesse d’être un outil pour devenir une composante du milieu humain. À partir de là, l’enjeu n’est plus la performance. Il est l’accord. Non plus la domination, mais la co-évolution. Non plus l’optimisation isolée, mais une intelligence vivantielle partagée.

Le problème des world models n’est donc pas technique, il est ontologique.

Le vivant vous attend. Il ne vous demande pas de le modéliser. Il vous demande de vous y accorder

Ce texte a été adressé sous forme de lettre ouverte aux concepteurs de world models en intelligence artificielle : Yann LeCun, Demis Hassabis, Sergey Levine, Chelsea Finn, Yoshua Bengio. Il ouvre un dialogue sur l’impensé ontologique de ces architectures. Les échanges et partages sont en cours.