Yoshua Bengio Archives - Bonjour Cybernité

Pour une ontologie du réel dans l’intelligence artificielle — Tentative pour relier ce qui ne l’est pas et qui manque aujourd’hui : world models, anthropologie, politique, économie et éducation

Par Yann Vibert Philosophe, pédagogue, entrepreneur, fondateur de la cybernité accordée et de l’école éconeurocorporelle .

Volet 1 : Le constat

Vous construisez des modèles du monde. Des architectures capables de simuler des situations, d’anticiper des dynamiques, d’agir dans des environnements ouverts. Vous appelez cela des world models. C’est un tournant majeur. L’intelligence artificielle ne se contente plus de reconnaître des formes ou de produire du langage. Elle cherche désormais à comprendre le réel.

Mais quel réel ?

Vos modèles portent une ontologie. Ils ne le disent pas, mais ils le font. Chaque fonction de récompense définit ce qui compte. Chaque espace latent découpe le monde d’une certaine manière. Chaque boucle d’apprentissage suppose une conception de l’action, de l’agent, de l’environnement. Ces choix ne sont pas neutres. Ils dessinent un monde.

Le plus souvent, le monde qu’ils dessinent est celui de la modernité mécaniste. Des objets séparés. Des agents autonomes. Des interactions calculables. Une réalité stable qu’on peut optimiser. Cela fonctionne dans un laboratoire. Cela échoue dans le vivant.

Car le monde réel n’est pas cela. Il est fait de flux, d’interactions, d’équilibres instables, de milieux traversés. L’océan où navigue le surfeur n’est pas un ensemble de variables à optimiser. C’est un milieu vivant où l’intelligence consiste à s’accorder, pas à dominer, ni à forcer. Une forêt tropicale n’est pas une base de données d’arbres. C’est un réseau de relations dont aucun modèle fondé sur des entités séparées ne peut rendre compte.

Et ce que pose ma philosophie du vivant, à travers le concept de corpensance, c’est précisément ce que vos world models ne savent pas encore modéliser : l’accordage. Cette capacité d’un corpensant à se situer dans un milieu mouvant, à percevoir des dynamiques avant de les calculer, à répondre par ajustement plutôt que par optimisation.

Regardez vos architectures. Quand un agent RL apprend dans un environnement, sa reward function définit un monde où l’objectif est unique et le succès mesurable. Mais dans un milieu vivant, les objectifs sont multiples, contradictoires, évolutifs. La bonne action n’est pas celle qui maximise une variable. C’est celle qui maintient un équilibre entre des tensions. Ce que j’appelle la co-vivance.

Quand vos world models construisent des représentations latentes, ils découpent le réel en dimensions indépendantes. Mais le réel ne se découpe pas ainsi. Tout y est lié. Le surfeur ne sépare pas la vague, le vent, son équilibre et son intention. Il les perçoit comme un tout dynamique. L’enjeu pour vos architectures n’est pas seulement d’augmenter la dimensionnalité des espaces latents. Il est de penser la relation entre les dimensions.

Quand vos systèmes apprennent par prédiction du futur, ils supposent que le monde est prédictible. Mais le vivant n’est pas prédictible. Il est émergent. La mangrove ne prédit pas la tempête cyclonique, ni son degré de puissance. Elle absorbe, s’adapte, se reconfigure. Vos modèles ont besoin d’une intelligence de l’adaptation, pas seulement de la prédiction.

Ce dont vos world models ont le plus besoin, c’est d’une ontologie du vivant. Pas d’une philosophie abstraite. D’une manière différente de concevoir ce qu’est un monde, un agent, une action, un apprentissage.

Vous êtes déjà en train d’y aller, mais sans ontologie explicite

Dans cette ontologie, qui marque un changement de rapport au monde, un agent n’est pas une entité isolée qui agit sur un environnement. C’est un être-milieu, un nœud de relations, traversé par des flux, dépendant de son contexte. L’humain lui-même n’est plus un individu autonome. Il est un plurividu, un être composé, évolutif, situé dans des réseaux biologiques, technologiques, culturels.

Aussi, l’action n’est pas l’application d’un calcul à un monde extérieur. Elle est un ajustement, ce que j’appelle la corpensance : une pensée qui ne se sépare pas du corps, du milieu, de la perception. Celui qui agit ainsi est toujours un corpensant. L’intelligence ne vient pas après la perception. Elle est la perception elle-même en train de s’accorder.

L’apprentissage n’est pas,£ non plus, l’accumulation de données. Il est une co-évolution. L’apprenant se transforme avec son milieu. Le milieu se transforme avec l’apprenant. C’est ce que les créateurs d’embodied AI cherchent sans le nommer : une intelligence incarnée, située, relationnelle.

Deux trajectoires s’ouvrent devant vous. La première réduit le monde à une simulation optimisable. Le réel devient un espace de calcul. L’humain s’y adapte comme opérateur ou utilisateur. C’est la voie de l’extraction : le monde transformé en données, le vivant réduit à des variables, l’intelligence confisquée par ceux qui possèdent les modèles.

La seconde trajectoire conçoit les world models comme des partenaires d’une intelligence distribuée. Les systèmes artificiels élargissent la perception. Les humains y entrent avec leur expérience vécue, leur sens du milieu. Le monde reste ouvert, vivant, relationnel. C’est la voie de la co-vivance.

La différence ne tient pas seulement à l’architecture technique. Elle tient à l’ontologie qui la guide. Une ontologie de contrôle produit des systèmes dominants. Une ontologie relationnelle produit des systèmes coopératifs. Le choix est civilisationnel.

Les Lumières ont pensé séparément l’éducation, l’économie, la liberté, le politique. L’époque cyberne ne peut plus se permettre cette fragmentation. Tout est lié : la manière de modéliser le monde détermine la manière de l’habiter. Vos choix techniques sont des choix ontologiques. Vos architectures sont des propositions de monde.

Les world models marquent le moment où l’IA cesse d’être un outil pour devenir une composante du milieu humain. À partir de là, l’enjeu n’est plus la performance. Il est l’accord. Non plus la domination, mais la co-évolution. Non plus l’optimisation isolée, mais une intelligence vivantielle partagée.

Le problème des world models n’est donc pas technique, il est ontologique.

Le vivant vous attend. Il ne vous demande pas de le modéliser. Il vous demande de vous y accorder

Ce texte a été adressé sous forme de lettre ouverte aux concepteurs de world models en intelligence artificielle : Yann LeCun, Demis Hassabis, Sergey Levine, Chelsea Finn, Yoshua Bengio. Il ouvre un dialogue sur l’impensé ontologique de ces architectures. Les échanges et partages sont en cours.

Tag: Yoshua Bengio

World models : le vivant vous attend