Stack utilisée dans cette formation

Langage : TypeScript / Node.js — ta stack native
LLM APIs : OpenAI, Anthropic Claude
Framework IA : Vercel AI SDK, LangChain.js
Vector DB : Pinecone
Déploiement : Vercel + Next.js

Le modèle mental

Un LLM c'est une machine qui prédit le prochain token le plus probable. Tout le reste découle de ça. Tu n'as pas besoin de comprendre les maths — tu as besoin de comprendre les abstractions.

Concepts fondamentaux

Concept	Définition simple	Impact pratique
Token	Morceau de mot (~4 caractères en moyenne)	Chaque appel API est facturé en tokens
Context window	La "RAM" du LLM — tout ce qu'il voit à la fois	Limite la taille de ta conversation + doc
Temperature	Niveau de créativité (0 = déterministe, 1 = aléatoire)	Code → 0. Rédaction créative → 0.7+
System prompt	Instructions permanentes données au modèle	Définit le comportement de ton assistant
Embedding	Représentation numérique du sens d'un texte	Base des RAGs et de la recherche sémantique

Architecture d'un LLM

Pipeline Pre-Training → Post-Training → Inférence

Données brutes

→

Nettoyage
RefinedWeb, FineWeb

→

Tokenisation
BPE

→

Pre-Training
Transformer

↓

modèle de base

SFT
Supervised Fine-Tuning

→

RLHF
Reward Model + PPO

→

Modèle final
GPT-4o, Claude, Llama…

Génération de texte

Le modèle génère token par token. Plusieurs stratégies existent pour contrôler cette génération :

Stratégies de génération

Stratégie	Comportement	Usage
Greedy search	Prend toujours le token le plus probable	Rapide mais répétitif
Beam search	Explore N séquences candidates en parallèle	Traduction, résumé
Top-k sampling	Choisit aléatoirement parmi les k tokens les plus probables	Génération créative
Top-p (nucleus)	Sélectionne dans les tokens couvrant p% de probabilité	Équilibre qualité/diversité

Post-Training

RLHF — Reinforcement Learning from Human Feedback

SFT : fine-tuning supervisé sur des conversations humaines de qualité → le modèle apprend à être utile
Reward Model : entraîné à prédire les préférences humaines entre deux réponses
PPO : algorithme RL qui optimise le LLM pour maximiser la récompense du reward model
Verifiable tasks : code, maths → la récompense peut être calculée automatiquement

📄

Attention Is All You Need (2017)

Vaswani et al. — Google Brain. Le papier fondateur de l'architecture Transformer sur laquelle sont basés tous les LLMs modernes.

📄

InstructGPT / RLHF (2022)

Ouyang et al. — OpenAI. Décrit comment le fine-tuning par retour humain transforme un modèle de base en assistant utile.

Pourquoi les RAGs ?

Un LLM ne connaît pas tes données d'entreprise. Mettre toute ta doc dans le prompt coûte cher et dépasse la context window. La solution : RAG (Retrieval-Augmented Generation).

Architecture RAG — Vue d'ensemble

PHASE 1 — INDEXATION (une seule fois)

Documents
PDF, MD, web

→

Chunking
~500 chars

→

Embedding
text-embedding-3

→

Vector DB
Pinecone

PHASE 2 — RETRIEVAL + GENERATION (à chaque requête)

Question user

→

Embed question

→

Nearest Neighbor
top-k chunks

→

Prompt + contexte

→

Réponse sourcée

Embeddings

Un embedding c'est une liste de nombres représentant le sens d'un texte. Deux textes similaires ont des vecteurs mathématiquement proches — c'est ça qui permet la recherche sémantique.

Principe de la similarité vectorielle

"Le remboursement prend 5 jours" → [0.023, -0.141, 0.089, ...]
"Combien de temps pour un remboursement ?" → [0.019, -0.138, 0.091, ...]
Distance cosinus ≈ 0.02 → très proches → pertinent ✓

"La météo à Paris aujourd'hui" → [0.412, 0.233, -0.301, ...]
Distance cosinus ≈ 0.87 → loin → non pertinent ✗

Prompt Engineering

Technique	Description	Quand l'utiliser
Zero-shot	Demande directe sans exemple	Tâches simples et bien définies
Few-shot	2-5 exemples dans le prompt	Format de réponse précis attendu
Chain-of-Thought	"Raisonne étape par étape avant de répondre"	Problèmes complexes, maths, logique
Role prompting	"Tu es un expert en comptabilité fiscale..."	Améliore la qualité sur domaines spécialisés
Output format	"Réponds en JSON avec les champs X, Y, Z"	Intégration dans un système programmatique

📄

RAG — Retrieval-Augmented Generation (2020)

Lewis et al. — Facebook AI. Le papier original qui introduit le concept de RAG pour enrichir les réponses des LLMs avec des sources externes.

📄

Chain-of-Thought Prompting (2022)

Wei et al. — Google Brain. Montre que demander au modèle de raisonner étape par étape améliore significativement les performances sur les tâches complexes.

LLM vs Workflow vs Agent

LLM seul

Génère du texte à partir d'un prompt
Connaissance statique (date de training)
Pas d'action dans le monde réel

Agent

Peut appeler des outils externes
Observe les résultats et s'adapte
Planifie et agit de façon autonome

Le cycle ReACT

ReACT — Reason + Act (Wei et al., Google / Princeton 2022)

THINK
Que faire ?

→

ACT
Appelle un outil

→

OBSERVE
Résultat outil

→

THINK
Suffisant ?

→

ANSWER
Réponse finale

Si pas suffisant → retour à THINK. La boucle tourne jusqu'à avoir assez d'information.

Workflows agentiques

Pattern	Principe	Exemple concret
Prompt Chaining	Sortie d'un LLM = entrée du suivant	Résume → Traduis → Formate
Parallelization	Exécution simultanée, agrégation	Cherche sur 3 sources en même temps
Routing	Un LLM décide vers quel sous-agent router	Question simple → mini / complexe → 4o
Reflection	L'agent critique et améliore ses outputs	Génère du code → Teste → Corrige
Orchestrator-worker	Un agent central délègue à des spécialistes	Orchestrateur → agents recherche / analyse

MCP — Model Context Protocol

Protocole standardisé (Anthropic, 2024) permettant aux LLMs de se connecter à des serveurs d'outils externes de façon uniforme.

Architecture MCP

MCP Host
Claude Desktop / IDE / App

→

MCP Client

→ MCP Protocol →

MCP Server A

→

Google Drive

MCP Client

→ MCP Protocol →

MCP Server B

→

PostgreSQL

📄

ReAct: Synergizing Reasoning and Acting (2022)

Yao et al. — Princeton / Google. Introduit le pattern ReACT qui alterne raisonnement et action pour des agents LLMs plus performants.

Les Thinking LLMs

Une nouvelle génération de modèles (OpenAI o1/o3, DeepSeek-R1) génère une chaîne de pensée interne avant de répondre. Le modèle "réfléchit" de quelques secondes à plusieurs minutes selon la difficulté.

LLM classique

Prompt → réponse directe
Latence : ~1-2s
Bon pour tâches simples
Coût faible

Reasoning model (o1, o3)

Prompt → réflexion → réponse
Latence : 5s à plusieurs minutes
Excellent sur maths, code, logique
Coût 5-20x plus élevé

Inference-Time Scaling

Principe : allouer plus de calcul à l'inférence améliore la qualité — c'est le pendant de la loi de scaling sur les données/paramètres, mais appliqué au moment de la réponse.

Technique	Principe	Trade-off
Chain-of-Thought	Raisonner étape par étape avant de conclure	+qualité / +tokens
Self-Consistency	Générer N réponses, garder la plus fréquente	+robustesse / N× coût
Sequential Revision	Générer → critiquer → améliorer en plusieurs passes	+précision / +latence
Tree of Thoughts	Explorer plusieurs chemins de raisonnement en arbre	+exploration / +++coût
Search vs Verifier	Valider chaque étape avec un vérificateur externe	+fiabilité / infra requise

Architecture Deep Research

Les 3 étapes du système Deep Research

1

Planification

Requête complexe → clarification interactive → décomposition en sous-questions de recherche → attribution aux sub-agents

2

Exécution parallèle

N sub-agents cherchent sur le web en parallèle (Promise.all) dans un environnement sandboxé sécurisé. LLM reasoning + tool selection à chaque étape.

3

Synthèse + Citations

Synthesizer Agent : agrège, déduplique, planifie l'outline. Citation Agent : source-claim linking + formatage. → Rapport final sourcé.

📄

Tree of Thoughts (2023)

Yao et al. — Princeton / Google DeepMind. Généralise le CoT en explorant plusieurs chemins de raisonnement simultanément.

📄

DeepSeek-R1 (2025)

DeepSeek AI. Modèle open-source avec raisonnement explicite comparable à o1. Entraîné par RL pur sans SFT initial.

Les familles de modèles génératifs

Famille	Principe	État actuel
VAE	Encode en espace latent compressé, décode en image	Utilisé comme composant dans d'autres modèles
GANs	Générateur vs Discriminateur en compétition	Dépassé pour T2I, encore utilisé en vidéo
Auto-régressifs	Génère pixel par pixel ou token par token	DALL-E 1, maintenant remplacé
Diffusion	Apprend à débruiter des images progressivement	✓ État de l'art — DALL-E 3, SD, Midjourney

Pipeline Text-to-Image

Flux complet d'un système T2I (ex: DALL-E 3, Stable Diffusion)

ENTRAÎNEMENT (une seule fois)

Images + captions

→

Quality filtering
Re-captioning

→

Text Encoder
Image Encoder

→

Diffusion Training
forward + backward

→

T2I Model

INFÉRENCE (à chaque génération)

Prompt texte

→

Input Guardrails

→

Text Encoder

→

Diffusion Sampling
bruit → image

→

Output Guardrails

→

Image générée

Évaluation des modèles génératifs

Métrique	Mesure	Interprétation
FID	Distance entre distribution générée et réelle	Plus bas = mieux. Standard industrie.
IS (Inception Score)	Qualité + diversité des images générées	Plus haut = mieux
CLIP Score	Alignement image générée ↔ prompt texte	Mesure la fidélité au prompt
Human eval	Préférence humaine entre deux générations	Gold standard mais coûteux

📄

Denoising Diffusion Probabilistic Models (2020)

Ho et al. — UC Berkeley. Le papier fondateur des modèles de diffusion modernes utilisés dans DALL-E 3 et Stable Diffusion.

C'est quoi le Capstone ?

Le Capstone Project est le projet de fin de formation — celui que tu mets sur ton portfolio, dont tu parles en entretien, et qui prouve que tu sais construire de vraies applications IA de bout en bout.

Idées de projets adaptés à un dev JS senior

AI Code Reviewer — agent qui review ton code sur GitHub, détecte les bugs, suggère des améliorations
Personal Knowledge Base — RAG sur tes propres notes (Notion, Obsidian) avec interface chat
AI Component Generator — décris un composant React en langage naturel, l'agent génère le code
Multi-Agent Research Tool — Deep Research spécialisé sur un domaine (tech, finance, légal)
AI-Powered SaaS Starter — template Next.js + auth + LLM + RAG prêt à l'emploi

Checklist d'un bon Capstone

✓ Le problème est réel — toi-même ou quelqu'un d'autre en a besoin
✓ Il utilise au moins 2 techniques du cours (ex : RAG + agents)
✓ Il est déployé en production (Vercel, Railway, Fly.io)
✓ Il a une interface utilisable (Next.js)
✓ Le code est sur GitHub avec un bon README
✓ Tu peux l'expliquer en 2 minutes sans jargon technique

Stack recommandée

Couche	Technologie	Pourquoi
Frontend	Next.js 14 + Tailwind + shadcn/ui	Stack standard, déployable Vercel en 1 clic
LLM	OpenAI GPT-4o + Vercel AI SDK	SDK le plus simple pour le streaming
Vector DB	Pinecone Starter	Gratuit jusqu'à 1M vecteurs
Base de données	Neon (Postgres serverless)	Free tier généreux, compatible Vercel
Storage	Cloudflare R2	Gratuit jusqu'à 10GB, zero egress fees
Monitoring LLM	LangSmith free tier	Tracer les appels, détecter les hallucinations

Partie 1 — Qualifier un client

La première compétence du consultant IA c'est de savoir dire non. Pas à tout — mais identifier les projets qui ont de la valeur réelle vs ceux qui sont de la hype.

Les 4 questions à poser avant tout engagement

Quel est le problème métier ? — Pas "on veut faire de l'IA", quel process est lent, coûteux ou source d'erreurs ?
Où sont les données ? — Elles existent ? Elles sont propres ? Accessibles ? Contraintes RGPD ?
Qui va l'utiliser ? — Y a-t-il un champion interne ? Un outil sans utilisateur = un POC mort.
Quel est le critère de succès ? — Comment on sait dans 3 mois que c'est un succès ?

✅ Bon candidat IA

Traitement de documents en volume
Q&A sur une base de connaissance
Classification ou extraction répétitive
Support client de premier niveau
Génération de contenu structuré

❌ Pas besoin d'IA

Un process qui marche déjà bien
Une règle métier simple et fixe
Un problème de données manquantes
Budget insuffisant pour maintenir
RGPD bloque l'utilisation des données

Règle d'or

Si Microsoft Copilot ou Notion AI suffisent, dis-le — même si ça te coûte la mission
Un consultant honnête qui dit "non" inspire plus confiance qu'un qui dit toujours "oui"
Ta réputation long terme vaut plus qu'une mission mal vendue

Partie 2 — Mener un Audit IA

L'audit est ta mission d'entrée — 2 à 5 jours, facturée, qui ouvre la relation client sans engagement long terme des deux côtés.

1

Découverte (Jour 1)

Entretiens décideur + équipe tech + utilisateurs finaux. Livrable : mind map des use cases classés par valeur / complexité.

2

Analyse (Jours 2-3)

Évaluation des données (qualité, volume, RGPD), analyse de la stack existante, benchmark des solutions du marché, calcul du ROI estimé.

3

Recommandation (Jours 4-5)

Rapport 10-15 slides max, zéro jargon. Quick wins actionnables en moins d'un mois. Roadmap 6 mois. Proposition de POC chiffrée si pertinent.

Tarification indicative — France 2025

Audit express 2 jours : 2 000 à 3 500 €
Audit complet 5 jours : 5 000 à 8 000 €
Audit + POC inclus : 10 000 à 20 000 €
TJM dev senior expérimenté : 700-900 €/jour minimum

Partie 3 — Cadrer un POC

Template de cadrage POC — à remplir avec le client

Problème : en une phrase, quel problème on résout ?
Use case précis : pas "le support client" — "les emails entrants de niveau 1"
Données : quelles données, quel volume, quel format, quel accès ?
Critère de succès : 80% des questions répondues sans humain — chiffré et mesurable
Périmètre exclu : ce qu'on ne fait PAS — anti scope creep, écrit noir sur blanc
Durée et budget : date fixe + budget fixe — les deux inamovibles
Décideur : qui valide côté client ?

4 pièges spécifiques aux apps IA en production

Pas de fallback : si l'API OpenAI est down, ton app est down. Toujours prévoir un message d'erreur clair.
Pas de monitoring des coûts : une boucle d'agent qui part en vrille peut coûter des centaines d'€ en minutes.
Pas de guardrails : sans filtres input/output, n'importe qui manipule le LLM. Même basiques, ils sont indispensables.
Index jamais mis à jour : un RAG avec des données obsolètes est pire que pas de RAG.

Partie 4 — Parler à la direction

Ce que tu dis en tech	Ce que tu dis à la direction
On va faire un RAG avec Pinecone	Le chatbot cherche dans vos docs avant de répondre
Le LLM va halluciner parfois	Le système peut se tromper — on prévoit une validation humaine
Ça coûte X tokens par requête	Le coût par conversation est de X centimes
Il faut fine-tuner le modèle	On va entraîner le système sur vos données métier
La latence est de 2-3 secondes	La réponse arrive en 2-3 secondes, comme Google

Objection client	Ta réponse
"L'IA va remplacer nos employés"	L'IA gère le répétitif, vos équipes se concentrent sur la valeur ajoutée
"C'est trop cher"	Le POC coûte X€. Le process actuel coûte Y€/mois. Payback en N mois.
"Et si ça dit des bêtises ?"	On conçoit avec validation humaine sur les cas sensibles dès le départ
"On a essayé, ça n'a pas marché"	Qu'est-ce qui n'a pas marché ? (souvent : mauvais use case ou données non propres)
"Nos données sont confidentielles"	Les données restent dans votre infra / on utilise Azure OpenAI avec accord DPA

Fondamentaux LLMs

📄

Attention Is All You Need (2017)

Vaswani et al. — Google Brain. Architecture Transformer — base de tous les LLMs modernes.

📄

GPT-3: Language Models are Few-Shot Learners (2020)

Brown et al. — OpenAI. Démontre les capacités émergentes des grands modèles de langage.

📄

InstructGPT / RLHF (2022)

Ouyang et al. — OpenAI. Fine-tuning par retour humain pour aligner les LLMs.

📄

LLaMA (2023)

Touvron et al. — Meta AI. Famille de modèles open-source très utilisée en production.

RAG & Prompt Engineering

📄

RAG — Retrieval-Augmented Generation (2020)

Lewis et al. — Facebook AI. Papier original introduisant le concept de RAG.

📄

Chain-of-Thought Prompting (2022)

Wei et al. — Google Brain. Raisonner étape par étape améliore les performances.

📄

RAFT: Adapting Language Model to Domain (2024)

Zhang et al. — UC Berkeley / Microsoft. Fine-tuning pour améliorer les RAGs.

Agents & Raisonnement

📄

ReAct: Synergizing Reasoning and Acting (2022)

Yao et al. — Princeton / Google. Pattern ReACT pour les agents LLMs.

📄

Reflexion (2023)

Shinn et al. — Northeastern / MIT. Agents qui apprennent de leurs erreurs par réflexion verbale.

📄

Tree of Thoughts (2023)

Yao et al. — Princeton / Google DeepMind. Exploration arborescente des raisonnements.

📄

STaR: Self-Taught Reasoner (2022)

Zelikman et al. — Stanford. Fine-tuning sur des traces de raisonnement générées par le modèle lui-même.

📄

DeepSeek-R1 (2025)

DeepSeek AI. Reasoning model open-source entraîné par RL pur.

Génération multimodale

📄

DDPM — Denoising Diffusion Probabilistic Models (2020)

Ho et al. — UC Berkeley. Papier fondateur des modèles de diffusion modernes.

📄

Latent Diffusion Models (2022)

Rombach et al. — Stability AI. Diffusion dans l'espace latent — base de Stable Diffusion.

📄

CLIP (2021)

Radford et al. — OpenAI. Alignement texte-image, utilisé dans presque tous les systèmes T2I.

Dev Fullstack JS
→ AI Engineer

Ce que tu vas maîtriser

Les 7 modules

🛝 LLM Playground

Le modèle mental

Architecture d'un LLM

Génération de texte

Post-Training

🤖 Customer Support Chatbot

Pourquoi les RAGs ?

Embeddings

Prompt Engineering

🔍 Ask-the-Web Agent

LLM vs Workflow vs Agent

Le cycle ReACT

Workflows agentiques

MCP — Model Context Protocol

🧠 Deep Research Capability

Les Thinking LLMs

Inference-Time Scaling

Architecture Deep Research

🎨 Multi-modal Generation Agent

Les familles de modèles génératifs

Pipeline Text-to-Image

Évaluation des modèles génératifs

🚀 Capstone Project

C'est quoi le Capstone ?

Checklist d'un bon Capstone

Stack recommandée

🎯 AI Consulting pour Dev Senior

Partie 1 — Qualifier un client

Partie 2 — Mener un Audit IA

Partie 3 — Cadrer un POC

Partie 4 — Parler à la direction

📄 Papers & Sources

Fondamentaux LLMs

RAG & Prompt Engineering

Agents & Raisonnement

Génération multimodale

Dev Fullstack JS→ AI Engineer

Ce que tu vas maîtriser

Les 7 modules

🛝 LLM Playground

Le modèle mental

Architecture d'un LLM

Génération de texte

Post-Training

🤖 Customer Support Chatbot

Pourquoi les RAGs ?

Embeddings

Prompt Engineering

🔍 Ask-the-Web Agent

LLM vs Workflow vs Agent

Le cycle ReACT

Workflows agentiques

MCP — Model Context Protocol

🧠 Deep Research Capability

Les Thinking LLMs

Inference-Time Scaling

Architecture Deep Research

🎨 Multi-modal Generation Agent

Les familles de modèles génératifs

Pipeline Text-to-Image

Évaluation des modèles génératifs

🚀 Capstone Project

C'est quoi le Capstone ?

Checklist d'un bon Capstone

Stack recommandée

🎯 AI Consulting pour Dev Senior

Partie 1 — Qualifier un client

Partie 2 — Mener un Audit IA

Partie 3 — Cadrer un POC

Partie 4 — Parler à la direction

📄 Papers & Sources

Fondamentaux LLMs

RAG & Prompt Engineering

Agents & Raisonnement

Génération multimodale

Dev Fullstack JS
→ AI Engineer