Les LLM, c'est le passé
ChatGPT, c’est has been.
Tous ces LLM impressionnent encore qui ? les boomers ?
Parce qu'il faut bien se rappeler que tous ces trucs aux noms farfelus (GPT, Gemini Mistral, etc... on dirait un haïku) sont entraînés avec le texte qu’on trouve sur internet.
Soit à peu près 10 000 milliards de mots. Ça nous prendrait 100 000 ans à lire tout ça en y consacrant nos journées entières.
Alors si on entraîne un système avec cette incroyable quantité d'information, ça va être vraiment intelligent.
Mais en fait non.
Car la connaissance représentée par le texte est extrêmement parcellaire. Elle est limitée à ce qui intéresse les humains.
Voilà pourquoi l’IA génère des idées et du code, me libérant ainsi du temps pour sortir les poubelles 😢.
Perso, j'aurais préféré le contraire.
Lire ne suffit pas à être intelligent
Un enfant a été éveillé environ 16 000 heures dans les 4 premières années de la vie.
Si on chiffre la quantité d'informations qui est arrivée à son cerveau, par le contact visuel ou par le toucher, c'est 50 fois plus que la totalité du texte d'entraînement des LLM.
En observant le monde pendant quelques mois ou même quelques centaines d'heures, on a plus de données que la totalité du texte disponible sur Internet.
Voilà pourquoi on est encore loin de l'intelligence artificielle qui sort mes poubelles. Car l’intelligence implique une compréhension du monde qui nous entoure (et aussi une mémoire persistante, une capacité de raisonnement et planification).
Et les LLM en sont incapables aujourd'hui.
Même un chat de gouttière comprend mieux le monde physique qu'un LLM. Il a une mémoire persistante, et peut probablement planifier et dans une certaine mesure raisonner aussi.
On ne parvient pas à l'intelligence au niveau humain en entraînant simplement des machines sur du texte.
Il faudrait déjà les entraîner sur de la vidéo, de manière auto-supervisée.
L’extension des LLM à la vidéo
La logique voudrait que l'on s'y prenne de la même façon qu'avec le texte. C’est-à-dire entraîner une machine à prédire ce qui va se passer dans une vidéo.
Et ce faisant, un modèle parviendrait à comprendre que le monde est tridimensionnel, qu'il est composé d'objets, que les objets obéissent à la physique, qu'il y a des objets animés, inanimés, etc.
Donc comprendre le monde à la manière des êtres vivants. Un petit peu.
Ça ne marche pas.
10 ans que tout le monde essaye sans succès. Ça marche très bien pour le texte, mais pas pour l'image ni la vidéo.
A partir de l’image de quelqu’un qui lâche son stylo, le modèle tente de prédire une image qui n’a aucun sens. Une sorte de moyenne floue de tous les futurs possibles, parce qu’ils sont trop nombreux et trop complexes.
Deviner les pixels d'une image est un autre ordre de complexité que de deviner le mot suivant. En s'acharnant avec 10 000 GPU et un milliard de dollars, les résultats sont médiocres, sauf dans les présentations marketing.
Donc mieux vaut travailler sur des nouveaux concepts. En reprenant le problème (presque) à partir d’une feuille blanche.
Une représentation abstraite du monde
Dans le podcast GDIY (le lien est à la fin), Yann Le Cun explique les pistes explorées dans les labos de recherche de Meta.
Impossible de produire dans le détail tous les pixels qui représentent la position du crayon sur la table. Par contre, on peut dire que le crayon va tomber sur la table.
C'est une représentation abstraite de la réalité.
Une sorte de simplification pour se concentrer uniquement sur ce qui importe. Ce qui attire notre attention.
L’idée serait donc de passer d'abord l'image par un encodeur pour calculer une représentation qui se concentre sur le crayon. L’encodeur garde la substantifique moelle du contenu de l'image.
Tout ce qui est derrière le crayon n'est pas important : la texture du bois de la table, l’image de la télé en arrière plan, etc…
Si l’on construit une représentation abstraite du monde dans lequel les détails imprédictifs sont éliminés, alors il devient possible de construire un modèle de prédiction, limité aux choses importantes.
Une idée pas si neuve
Révolutionnaire ? Pas tant que ça.
Au XVIIe siècle, on a découvert qu’il suffisait de connaître 6 nombres pour prédire la trajectoire d'une planète : les trois coordonnées de position de la planète et trois valeurs de vitesse.
Inutile de connaître la taille, la forme, la masse, la couleur, la densité de la planète, s'il y a des êtres vivants ou pas. Ces détails n'ont aucune importance pour prédire sa trajectoire.
La seule chose qu'il suffit de savoir, ce sont ces six paramètres.
L’avenir de IA selon Yann Le Cun, c’est de parvenir à compresser le monde pour en élaborer une représentation abstraite permettant de faire des prédictions.
L’avenir de l’IA, c’est le discernement.
Bizarrement, c’est justement ce qui manque parfois cruellement aux humains.
Références
- L'épisode du podcast à l'origine de cet article : https://www.gdiy.fr/podcast/yann-le-cun/
- Le projet JEPA de Meta : https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
- Pour les devs qui veulent tester le discernement dans une image ou une vidéo : https://github.com/facebookresearch/dino