Formation AI Engineer 7 modules
Formation complète · TypeScript/Node.js

Dev Fullstack JS
AI Engineer

Comprendre les LLMs sous le capot. Construire des RAGs, des agents et des systèmes multimodaux. Savoir conseiller un client sur sa stratégie IA.

Ce que tu vas maîtriser

Avant cette formation
  • Utilise ChatGPT via l'interface
  • Ne comprend pas les coûts API
  • Subit les hallucinations
  • Dépend des outils no-code
  • Ne peut pas déboguer une app IA
Après cette formation
  • Appelle les APIs directement
  • Optimise tokens & coûts
  • Implémente guardrails & RAG
  • Construit ses propres outils
  • Audite et conseille un client IA

Les 7 modules

Stack utilisée dans cette formation
  • Langage : TypeScript / Node.js — ta stack native
  • LLM APIs : OpenAI, Anthropic Claude
  • Framework IA : Vercel AI SDK, LangChain.js
  • Vector DB : Pinecone
  • Déploiement : Vercel + Next.js

Le modèle mental

Un LLM c'est une machine qui prédit le prochain token le plus probable. Tout le reste découle de ça. Tu n'as pas besoin de comprendre les maths — tu as besoin de comprendre les abstractions.

Concepts fondamentaux
ConceptDéfinition simpleImpact pratique
TokenMorceau de mot (~4 caractères en moyenne)Chaque appel API est facturé en tokens
Context windowLa "RAM" du LLM — tout ce qu'il voit à la foisLimite la taille de ta conversation + doc
TemperatureNiveau de créativité (0 = déterministe, 1 = aléatoire)Code → 0. Rédaction créative → 0.7+
System promptInstructions permanentes données au modèleDéfinit le comportement de ton assistant
EmbeddingReprésentation numérique du sens d'un texteBase des RAGs et de la recherche sémantique

Architecture d'un LLM

Pipeline Pre-Training → Post-Training → Inférence
Données brutes
Nettoyage
RefinedWeb, FineWeb
Tokenisation
BPE
Pre-Training
Transformer
modèle de base
SFT
Supervised Fine-Tuning
RLHF
Reward Model + PPO
Modèle final
GPT-4o, Claude, Llama…

Génération de texte

Le modèle génère token par token. Plusieurs stratégies existent pour contrôler cette génération :

Stratégies de génération
StratégieComportementUsage
Greedy searchPrend toujours le token le plus probableRapide mais répétitif
Beam searchExplore N séquences candidates en parallèleTraduction, résumé
Top-k samplingChoisit aléatoirement parmi les k tokens les plus probablesGénération créative
Top-p (nucleus)Sélectionne dans les tokens couvrant p% de probabilitéÉquilibre qualité/diversité

Post-Training

RLHF — Reinforcement Learning from Human Feedback
  • SFT : fine-tuning supervisé sur des conversations humaines de qualité → le modèle apprend à être utile
  • Reward Model : entraîné à prédire les préférences humaines entre deux réponses
  • PPO : algorithme RL qui optimise le LLM pour maximiser la récompense du reward model
  • Verifiable tasks : code, maths → la récompense peut être calculée automatiquement
📄
Attention Is All You Need (2017)
Vaswani et al. — Google Brain. Le papier fondateur de l'architecture Transformer sur laquelle sont basés tous les LLMs modernes.
📄
InstructGPT / RLHF (2022)
Ouyang et al. — OpenAI. Décrit comment le fine-tuning par retour humain transforme un modèle de base en assistant utile.

Pourquoi les RAGs ?

Un LLM ne connaît pas tes données d'entreprise. Mettre toute ta doc dans le prompt coûte cher et dépasse la context window. La solution : RAG (Retrieval-Augmented Generation).

Architecture RAG — Vue d'ensemble
PHASE 1 — INDEXATION (une seule fois)
Documents
PDF, MD, web
Chunking
~500 chars
Embedding
text-embedding-3
Vector DB
Pinecone
PHASE 2 — RETRIEVAL + GENERATION (à chaque requête)
Question user
Embed question
Nearest Neighbor
top-k chunks
Prompt + contexte
Réponse sourcée

Embeddings

Un embedding c'est une liste de nombres représentant le sens d'un texte. Deux textes similaires ont des vecteurs mathématiquement proches — c'est ça qui permet la recherche sémantique.

Principe de la similarité vectorielle
"Le remboursement prend 5 jours" → [0.023, -0.141, 0.089, ...]
"Combien de temps pour un remboursement ?" → [0.019, -0.138, 0.091, ...]
Distance cosinus ≈ 0.02 → très proches → pertinent ✓

"La météo à Paris aujourd'hui" → [0.412, 0.233, -0.301, ...]
Distance cosinus ≈ 0.87 → loin → non pertinent ✗

Prompt Engineering

TechniqueDescriptionQuand l'utiliser
Zero-shotDemande directe sans exempleTâches simples et bien définies
Few-shot2-5 exemples dans le promptFormat de réponse précis attendu
Chain-of-Thought"Raisonne étape par étape avant de répondre"Problèmes complexes, maths, logique
Role prompting"Tu es un expert en comptabilité fiscale..."Améliore la qualité sur domaines spécialisés
Output format"Réponds en JSON avec les champs X, Y, Z"Intégration dans un système programmatique
📄
RAG — Retrieval-Augmented Generation (2020)
Lewis et al. — Facebook AI. Le papier original qui introduit le concept de RAG pour enrichir les réponses des LLMs avec des sources externes.
📄
Chain-of-Thought Prompting (2022)
Wei et al. — Google Brain. Montre que demander au modèle de raisonner étape par étape améliore significativement les performances sur les tâches complexes.

LLM vs Workflow vs Agent

LLM seul
  • Génère du texte à partir d'un prompt
  • Connaissance statique (date de training)
  • Pas d'action dans le monde réel
Agent
  • Peut appeler des outils externes
  • Observe les résultats et s'adapte
  • Planifie et agit de façon autonome

Le cycle ReACT

ReACT — Reason + Act (Wei et al., Google / Princeton 2022)
THINK
Que faire ?
ACT
Appelle un outil
OBSERVE
Résultat outil
THINK
Suffisant ?
ANSWER
Réponse finale
Si pas suffisant → retour à THINK. La boucle tourne jusqu'à avoir assez d'information.

Workflows agentiques

PatternPrincipeExemple concret
Prompt ChainingSortie d'un LLM = entrée du suivantRésume → Traduis → Formate
ParallelizationExécution simultanée, agrégationCherche sur 3 sources en même temps
RoutingUn LLM décide vers quel sous-agent routerQuestion simple → mini / complexe → 4o
ReflectionL'agent critique et améliore ses outputsGénère du code → Teste → Corrige
Orchestrator-workerUn agent central délègue à des spécialistesOrchestrateur → agents recherche / analyse

MCP — Model Context Protocol

Protocole standardisé (Anthropic, 2024) permettant aux LLMs de se connecter à des serveurs d'outils externes de façon uniforme.

Architecture MCP
MCP Host
Claude Desktop / IDE / App
MCP Client
→ MCP Protocol →
MCP Server A
Google Drive
MCP Client
→ MCP Protocol →
MCP Server B
PostgreSQL
📄
ReAct: Synergizing Reasoning and Acting (2022)
Yao et al. — Princeton / Google. Introduit le pattern ReACT qui alterne raisonnement et action pour des agents LLMs plus performants.

Les Thinking LLMs

Une nouvelle génération de modèles (OpenAI o1/o3, DeepSeek-R1) génère une chaîne de pensée interne avant de répondre. Le modèle "réfléchit" de quelques secondes à plusieurs minutes selon la difficulté.

LLM classique
  • Prompt → réponse directe
  • Latence : ~1-2s
  • Bon pour tâches simples
  • Coût faible
Reasoning model (o1, o3)
  • Prompt → réflexion → réponse
  • Latence : 5s à plusieurs minutes
  • Excellent sur maths, code, logique
  • Coût 5-20x plus élevé

Inference-Time Scaling

Principe : allouer plus de calcul à l'inférence améliore la qualité — c'est le pendant de la loi de scaling sur les données/paramètres, mais appliqué au moment de la réponse.

TechniquePrincipeTrade-off
Chain-of-ThoughtRaisonner étape par étape avant de conclure+qualité / +tokens
Self-ConsistencyGénérer N réponses, garder la plus fréquente+robustesse / N× coût
Sequential RevisionGénérer → critiquer → améliorer en plusieurs passes+précision / +latence
Tree of ThoughtsExplorer plusieurs chemins de raisonnement en arbre+exploration / +++coût
Search vs VerifierValider chaque étape avec un vérificateur externe+fiabilité / infra requise

Architecture Deep Research

Les 3 étapes du système Deep Research
1
Planification
Requête complexe → clarification interactive → décomposition en sous-questions de recherche → attribution aux sub-agents
2
Exécution parallèle
N sub-agents cherchent sur le web en parallèle (Promise.all) dans un environnement sandboxé sécurisé. LLM reasoning + tool selection à chaque étape.
3
Synthèse + Citations
Synthesizer Agent : agrège, déduplique, planifie l'outline. Citation Agent : source-claim linking + formatage. → Rapport final sourcé.
📄
Tree of Thoughts (2023)
Yao et al. — Princeton / Google DeepMind. Généralise le CoT en explorant plusieurs chemins de raisonnement simultanément.
📄
DeepSeek-R1 (2025)
DeepSeek AI. Modèle open-source avec raisonnement explicite comparable à o1. Entraîné par RL pur sans SFT initial.

Les familles de modèles génératifs

FamillePrincipeÉtat actuel
VAEEncode en espace latent compressé, décode en imageUtilisé comme composant dans d'autres modèles
GANsGénérateur vs Discriminateur en compétitionDépassé pour T2I, encore utilisé en vidéo
Auto-régressifsGénère pixel par pixel ou token par tokenDALL-E 1, maintenant remplacé
DiffusionApprend à débruiter des images progressivement✓ État de l'art — DALL-E 3, SD, Midjourney

Pipeline Text-to-Image

Flux complet d'un système T2I (ex: DALL-E 3, Stable Diffusion)
ENTRAÎNEMENT (une seule fois)
Images + captions
Quality filtering
Re-captioning
Text Encoder
Image Encoder
Diffusion Training
forward + backward
T2I Model
INFÉRENCE (à chaque génération)
Prompt texte
Input Guardrails
Text Encoder
Diffusion Sampling
bruit → image
Output Guardrails
Image générée

Évaluation des modèles génératifs

MétriqueMesureInterprétation
FIDDistance entre distribution générée et réellePlus bas = mieux. Standard industrie.
IS (Inception Score)Qualité + diversité des images généréesPlus haut = mieux
CLIP ScoreAlignement image générée ↔ prompt texteMesure la fidélité au prompt
Human evalPréférence humaine entre deux générationsGold standard mais coûteux
📄
Denoising Diffusion Probabilistic Models (2020)
Ho et al. — UC Berkeley. Le papier fondateur des modèles de diffusion modernes utilisés dans DALL-E 3 et Stable Diffusion.

C'est quoi le Capstone ?

Le Capstone Project est le projet de fin de formation — celui que tu mets sur ton portfolio, dont tu parles en entretien, et qui prouve que tu sais construire de vraies applications IA de bout en bout.

Idées de projets adaptés à un dev JS senior
  • AI Code Reviewer — agent qui review ton code sur GitHub, détecte les bugs, suggère des améliorations
  • Personal Knowledge Base — RAG sur tes propres notes (Notion, Obsidian) avec interface chat
  • AI Component Generator — décris un composant React en langage naturel, l'agent génère le code
  • Multi-Agent Research Tool — Deep Research spécialisé sur un domaine (tech, finance, légal)
  • AI-Powered SaaS Starter — template Next.js + auth + LLM + RAG prêt à l'emploi

Checklist d'un bon Capstone

  • Le problème est réel — toi-même ou quelqu'un d'autre en a besoin
  • Il utilise au moins 2 techniques du cours (ex : RAG + agents)
  • Il est déployé en production (Vercel, Railway, Fly.io)
  • Il a une interface utilisable (Next.js)
  • Le code est sur GitHub avec un bon README
  • Tu peux l'expliquer en 2 minutes sans jargon technique

Stack recommandée

CoucheTechnologiePourquoi
FrontendNext.js 14 + Tailwind + shadcn/uiStack standard, déployable Vercel en 1 clic
LLMOpenAI GPT-4o + Vercel AI SDKSDK le plus simple pour le streaming
Vector DBPinecone StarterGratuit jusqu'à 1M vecteurs
Base de donnéesNeon (Postgres serverless)Free tier généreux, compatible Vercel
StorageCloudflare R2Gratuit jusqu'à 10GB, zero egress fees
Monitoring LLMLangSmith free tierTracer les appels, détecter les hallucinations

Partie 1 — Qualifier un client

La première compétence du consultant IA c'est de savoir dire non. Pas à tout — mais identifier les projets qui ont de la valeur réelle vs ceux qui sont de la hype.

Les 4 questions à poser avant tout engagement
  • Quel est le problème métier ? — Pas "on veut faire de l'IA", quel process est lent, coûteux ou source d'erreurs ?
  • Où sont les données ? — Elles existent ? Elles sont propres ? Accessibles ? Contraintes RGPD ?
  • Qui va l'utiliser ? — Y a-t-il un champion interne ? Un outil sans utilisateur = un POC mort.
  • Quel est le critère de succès ? — Comment on sait dans 3 mois que c'est un succès ?
✅ Bon candidat IA
  • Traitement de documents en volume
  • Q&A sur une base de connaissance
  • Classification ou extraction répétitive
  • Support client de premier niveau
  • Génération de contenu structuré
❌ Pas besoin d'IA
  • Un process qui marche déjà bien
  • Une règle métier simple et fixe
  • Un problème de données manquantes
  • Budget insuffisant pour maintenir
  • RGPD bloque l'utilisation des données
Règle d'or
  • Si Microsoft Copilot ou Notion AI suffisent, dis-le — même si ça te coûte la mission
  • Un consultant honnête qui dit "non" inspire plus confiance qu'un qui dit toujours "oui"
  • Ta réputation long terme vaut plus qu'une mission mal vendue

Partie 2 — Mener un Audit IA

L'audit est ta mission d'entrée — 2 à 5 jours, facturée, qui ouvre la relation client sans engagement long terme des deux côtés.

1
Découverte (Jour 1)
Entretiens décideur + équipe tech + utilisateurs finaux. Livrable : mind map des use cases classés par valeur / complexité.
2
Analyse (Jours 2-3)
Évaluation des données (qualité, volume, RGPD), analyse de la stack existante, benchmark des solutions du marché, calcul du ROI estimé.
3
Recommandation (Jours 4-5)
Rapport 10-15 slides max, zéro jargon. Quick wins actionnables en moins d'un mois. Roadmap 6 mois. Proposition de POC chiffrée si pertinent.
Tarification indicative — France 2025
  • Audit express 2 jours : 2 000 à 3 500 €
  • Audit complet 5 jours : 5 000 à 8 000 €
  • Audit + POC inclus : 10 000 à 20 000 €
  • TJM dev senior expérimenté : 700-900 €/jour minimum

Partie 3 — Cadrer un POC

Template de cadrage POC — à remplir avec le client
  • Problème : en une phrase, quel problème on résout ?
  • Use case précis : pas "le support client" — "les emails entrants de niveau 1"
  • Données : quelles données, quel volume, quel format, quel accès ?
  • Critère de succès : 80% des questions répondues sans humain — chiffré et mesurable
  • Périmètre exclu : ce qu'on ne fait PAS — anti scope creep, écrit noir sur blanc
  • Durée et budget : date fixe + budget fixe — les deux inamovibles
  • Décideur : qui valide côté client ?
4 pièges spécifiques aux apps IA en production
  • Pas de fallback : si l'API OpenAI est down, ton app est down. Toujours prévoir un message d'erreur clair.
  • Pas de monitoring des coûts : une boucle d'agent qui part en vrille peut coûter des centaines d'€ en minutes.
  • Pas de guardrails : sans filtres input/output, n'importe qui manipule le LLM. Même basiques, ils sont indispensables.
  • Index jamais mis à jour : un RAG avec des données obsolètes est pire que pas de RAG.

Partie 4 — Parler à la direction

Ce que tu dis en techCe que tu dis à la direction
On va faire un RAG avec PineconeLe chatbot cherche dans vos docs avant de répondre
Le LLM va halluciner parfoisLe système peut se tromper — on prévoit une validation humaine
Ça coûte X tokens par requêteLe coût par conversation est de X centimes
Il faut fine-tuner le modèleOn va entraîner le système sur vos données métier
La latence est de 2-3 secondesLa réponse arrive en 2-3 secondes, comme Google
Objection clientTa réponse
"L'IA va remplacer nos employés"L'IA gère le répétitif, vos équipes se concentrent sur la valeur ajoutée
"C'est trop cher"Le POC coûte X€. Le process actuel coûte Y€/mois. Payback en N mois.
"Et si ça dit des bêtises ?"On conçoit avec validation humaine sur les cas sensibles dès le départ
"On a essayé, ça n'a pas marché"Qu'est-ce qui n'a pas marché ? (souvent : mauvais use case ou données non propres)
"Nos données sont confidentielles"Les données restent dans votre infra / on utilise Azure OpenAI avec accord DPA

Fondamentaux LLMs

📄
Attention Is All You Need (2017)
Vaswani et al. — Google Brain. Architecture Transformer — base de tous les LLMs modernes.
📄
GPT-3: Language Models are Few-Shot Learners (2020)
Brown et al. — OpenAI. Démontre les capacités émergentes des grands modèles de langage.
📄
InstructGPT / RLHF (2022)
Ouyang et al. — OpenAI. Fine-tuning par retour humain pour aligner les LLMs.
📄
LLaMA (2023)
Touvron et al. — Meta AI. Famille de modèles open-source très utilisée en production.

RAG & Prompt Engineering

📄
RAG — Retrieval-Augmented Generation (2020)
Lewis et al. — Facebook AI. Papier original introduisant le concept de RAG.
📄
Chain-of-Thought Prompting (2022)
Wei et al. — Google Brain. Raisonner étape par étape améliore les performances.
📄
RAFT: Adapting Language Model to Domain (2024)
Zhang et al. — UC Berkeley / Microsoft. Fine-tuning pour améliorer les RAGs.

Agents & Raisonnement

📄
ReAct: Synergizing Reasoning and Acting (2022)
Yao et al. — Princeton / Google. Pattern ReACT pour les agents LLMs.
📄
Reflexion (2023)
Shinn et al. — Northeastern / MIT. Agents qui apprennent de leurs erreurs par réflexion verbale.
📄
Tree of Thoughts (2023)
Yao et al. — Princeton / Google DeepMind. Exploration arborescente des raisonnements.
📄
STaR: Self-Taught Reasoner (2022)
Zelikman et al. — Stanford. Fine-tuning sur des traces de raisonnement générées par le modèle lui-même.
📄
DeepSeek-R1 (2025)
DeepSeek AI. Reasoning model open-source entraîné par RL pur.

Génération multimodale

📄
DDPM — Denoising Diffusion Probabilistic Models (2020)
Ho et al. — UC Berkeley. Papier fondateur des modèles de diffusion modernes.
📄
Latent Diffusion Models (2022)
Rombach et al. — Stability AI. Diffusion dans l'espace latent — base de Stable Diffusion.
📄
CLIP (2021)
Radford et al. — OpenAI. Alignement texte-image, utilisé dans presque tous les systèmes T2I.