Peut-on battre les modèles de Google ou Meta avec seulement 4 GPU et une disquette Zip ? C’est le pari fou de notre invité.e qui nous explique comment le "Data Design" est en train de ringardiser le scraping massif du web. 🥖 L'IA qui tient sur une disquette : La fin du gigantisme ? Dans cet épisode, on plonge dans le coeur de l'IA souveraine : pourquoi la qualité des données (tokens) prime sur la quantité, et comment les Small Language Models (SLM) vont permettre de décentraliser l'intelligence. 🚀 Ce que vous allez apprendre :
- Baguettotron : Le modèle de 320M de paramètres qui raisonne mieux que des géants.
- Data Design vs Scraping : Pourquoi "nettoyer" la donnée ne suffit plus, il faut la concevoir.
- Le secret des données synthétiques : Comment éviter le "Model Collapse" (l'appauvrissement de l'IA).
- Souveraineté : L'enjeu des bibliothèques nationales et de l'Open Data face au pillage des "Shadow Libraries".
⏳ Timestamps pour naviguer : 00:00 — Jeu d'indices : qui est la pionnière de la tech française ? 04:38 — L'arnaque du "poids ouvert" : qu'est-ce qu'une IA vraiment Open Source ? 14:41 — Data Design : pourquoi Pleias mise sur la provenance plutôt que le scraping 24:11 — Baguettotron : l'IA performante qui tient sur une disquette Zip 36:01 — Small Language Models (SLM) : battre les géants avec seulement 4 GPU 52:00 — L'avenir décentralisé : IA locale, souveraineté et modèles de raisonnement SPOILER ALERT : pour en savoir plus sur notre invitée Anastasia Stasenko , CEO Pleias : https://www.linkedin.c... 🔗 Liens et ressources : Pleias : https://pleias.fr/ Modèles & Datasets : Retrouvez "Common Corpus" sur Hugging Face.