Dev Fullstack JS
→ AI Engineer
Comprendre les LLMs sous le capot. Construire des RAGs, des agents et des systèmes multimodaux. Savoir conseiller un client sur sa stratégie IA.
Ce que tu vas maîtriser
- Utilise ChatGPT via l'interface
- Ne comprend pas les coûts API
- Subit les hallucinations
- Dépend des outils no-code
- Ne peut pas déboguer une app IA
- Appelle les APIs directement
- Optimise tokens & coûts
- Implémente guardrails & RAG
- Construit ses propres outils
- Audite et conseille un client IA
Les 7 modules
- Langage : TypeScript / Node.js — ta stack native
- LLM APIs : OpenAI, Anthropic Claude
- Framework IA : Vercel AI SDK, LangChain.js
- Vector DB : Pinecone
- Déploiement : Vercel + Next.js
🛝 LLM Playground
Comprendre les LLMs de l'intérieur avant de construire quoi que ce soit dessus.
Le modèle mental
Un LLM c'est une machine qui prédit le prochain token le plus probable. Tout le reste découle de ça. Tu n'as pas besoin de comprendre les maths — tu as besoin de comprendre les abstractions.
| Concept | Définition simple | Impact pratique |
|---|---|---|
| Token | Morceau de mot (~4 caractères en moyenne) | Chaque appel API est facturé en tokens |
| Context window | La "RAM" du LLM — tout ce qu'il voit à la fois | Limite la taille de ta conversation + doc |
| Temperature | Niveau de créativité (0 = déterministe, 1 = aléatoire) | Code → 0. Rédaction créative → 0.7+ |
| System prompt | Instructions permanentes données au modèle | Définit le comportement de ton assistant |
| Embedding | Représentation numérique du sens d'un texte | Base des RAGs et de la recherche sémantique |
Architecture d'un LLM
RefinedWeb, FineWeb
BPE
Transformer
Supervised Fine-Tuning
Reward Model + PPO
GPT-4o, Claude, Llama…
Génération de texte
Le modèle génère token par token. Plusieurs stratégies existent pour contrôler cette génération :
| Stratégie | Comportement | Usage |
|---|---|---|
| Greedy search | Prend toujours le token le plus probable | Rapide mais répétitif |
| Beam search | Explore N séquences candidates en parallèle | Traduction, résumé |
| Top-k sampling | Choisit aléatoirement parmi les k tokens les plus probables | Génération créative |
| Top-p (nucleus) | Sélectionne dans les tokens couvrant p% de probabilité | Équilibre qualité/diversité |
Post-Training
- SFT : fine-tuning supervisé sur des conversations humaines de qualité → le modèle apprend à être utile
- Reward Model : entraîné à prédire les préférences humaines entre deux réponses
- PPO : algorithme RL qui optimise le LLM pour maximiser la récompense du reward model
- Verifiable tasks : code, maths → la récompense peut être calculée automatiquement
🤖 Customer Support Chatbot
Connecter un LLM à tes propres données avec les RAGs et le Prompt Engineering.
Pourquoi les RAGs ?
Un LLM ne connaît pas tes données d'entreprise. Mettre toute ta doc dans le prompt coûte cher et dépasse la context window. La solution : RAG (Retrieval-Augmented Generation).
PDF, MD, web
~500 chars
text-embedding-3
Pinecone
top-k chunks
Embeddings
Un embedding c'est une liste de nombres représentant le sens d'un texte. Deux textes similaires ont des vecteurs mathématiquement proches — c'est ça qui permet la recherche sémantique.
"Combien de temps pour un remboursement ?" → [0.019, -0.138, 0.091, ...]
Distance cosinus ≈ 0.02 → très proches → pertinent ✓
"La météo à Paris aujourd'hui" → [0.412, 0.233, -0.301, ...]
Distance cosinus ≈ 0.87 → loin → non pertinent ✗
Prompt Engineering
| Technique | Description | Quand l'utiliser |
|---|---|---|
| Zero-shot | Demande directe sans exemple | Tâches simples et bien définies |
| Few-shot | 2-5 exemples dans le prompt | Format de réponse précis attendu |
| Chain-of-Thought | "Raisonne étape par étape avant de répondre" | Problèmes complexes, maths, logique |
| Role prompting | "Tu es un expert en comptabilité fiscale..." | Améliore la qualité sur domaines spécialisés |
| Output format | "Réponds en JSON avec les champs X, Y, Z" | Intégration dans un système programmatique |
🔍 Ask-the-Web Agent
Construire un agent qui agit — tool calling, pattern ReACT, workflows agentiques.
LLM vs Workflow vs Agent
- Génère du texte à partir d'un prompt
- Connaissance statique (date de training)
- Pas d'action dans le monde réel
- Peut appeler des outils externes
- Observe les résultats et s'adapte
- Planifie et agit de façon autonome
Le cycle ReACT
Que faire ?
Appelle un outil
Résultat outil
Suffisant ?
Réponse finale
Workflows agentiques
| Pattern | Principe | Exemple concret |
|---|---|---|
| Prompt Chaining | Sortie d'un LLM = entrée du suivant | Résume → Traduis → Formate |
| Parallelization | Exécution simultanée, agrégation | Cherche sur 3 sources en même temps |
| Routing | Un LLM décide vers quel sous-agent router | Question simple → mini / complexe → 4o |
| Reflection | L'agent critique et améliore ses outputs | Génère du code → Teste → Corrige |
| Orchestrator-worker | Un agent central délègue à des spécialistes | Orchestrateur → agents recherche / analyse |
MCP — Model Context Protocol
Protocole standardisé (Anthropic, 2024) permettant aux LLMs de se connecter à des serveurs d'outils externes de façon uniforme.
Claude Desktop / IDE / App
🧠 Deep Research Capability
Reasoning models, inference-time scaling, et architecture multi-agents pour la recherche approfondie.
Les Thinking LLMs
Une nouvelle génération de modèles (OpenAI o1/o3, DeepSeek-R1) génère une chaîne de pensée interne avant de répondre. Le modèle "réfléchit" de quelques secondes à plusieurs minutes selon la difficulté.
- Prompt → réponse directe
- Latence : ~1-2s
- Bon pour tâches simples
- Coût faible
- Prompt → réflexion → réponse
- Latence : 5s à plusieurs minutes
- Excellent sur maths, code, logique
- Coût 5-20x plus élevé
Inference-Time Scaling
Principe : allouer plus de calcul à l'inférence améliore la qualité — c'est le pendant de la loi de scaling sur les données/paramètres, mais appliqué au moment de la réponse.
| Technique | Principe | Trade-off |
|---|---|---|
| Chain-of-Thought | Raisonner étape par étape avant de conclure | +qualité / +tokens |
| Self-Consistency | Générer N réponses, garder la plus fréquente | +robustesse / N× coût |
| Sequential Revision | Générer → critiquer → améliorer en plusieurs passes | +précision / +latence |
| Tree of Thoughts | Explorer plusieurs chemins de raisonnement en arbre | +exploration / +++coût |
| Search vs Verifier | Valider chaque étape avec un vérificateur externe | +fiabilité / infra requise |
Architecture Deep Research
🎨 Multi-modal Generation Agent
Génération d'images et de vidéos par IA — modèles de diffusion, T2I et T2V.
Les familles de modèles génératifs
| Famille | Principe | État actuel |
|---|---|---|
| VAE | Encode en espace latent compressé, décode en image | Utilisé comme composant dans d'autres modèles |
| GANs | Générateur vs Discriminateur en compétition | Dépassé pour T2I, encore utilisé en vidéo |
| Auto-régressifs | Génère pixel par pixel ou token par token | DALL-E 1, maintenant remplacé |
| Diffusion | Apprend à débruiter des images progressivement | ✓ État de l'art — DALL-E 3, SD, Midjourney |
Pipeline Text-to-Image
Re-captioning
Image Encoder
forward + backward
bruit → image
Évaluation des modèles génératifs
| Métrique | Mesure | Interprétation |
|---|---|---|
| FID | Distance entre distribution générée et réelle | Plus bas = mieux. Standard industrie. |
| IS (Inception Score) | Qualité + diversité des images générées | Plus haut = mieux |
| CLIP Score | Alignement image générée ↔ prompt texte | Mesure la fidélité au prompt |
| Human eval | Préférence humaine entre deux générations | Gold standard mais coûteux |
🚀 Capstone Project
Ton projet IA personnel — de l'idée à la production. Le projet qui va sur ton portfolio.
C'est quoi le Capstone ?
Le Capstone Project est le projet de fin de formation — celui que tu mets sur ton portfolio, dont tu parles en entretien, et qui prouve que tu sais construire de vraies applications IA de bout en bout.
- AI Code Reviewer — agent qui review ton code sur GitHub, détecte les bugs, suggère des améliorations
- Personal Knowledge Base — RAG sur tes propres notes (Notion, Obsidian) avec interface chat
- AI Component Generator — décris un composant React en langage naturel, l'agent génère le code
- Multi-Agent Research Tool — Deep Research spécialisé sur un domaine (tech, finance, légal)
- AI-Powered SaaS Starter — template Next.js + auth + LLM + RAG prêt à l'emploi
Checklist d'un bon Capstone
- Le problème est réel — toi-même ou quelqu'un d'autre en a besoin
- Il utilise au moins 2 techniques du cours (ex : RAG + agents)
- Il est déployé en production (Vercel, Railway, Fly.io)
- Il a une interface utilisable (Next.js)
- Le code est sur GitHub avec un bon README
- Tu peux l'expliquer en 2 minutes sans jargon technique
Stack recommandée
| Couche | Technologie | Pourquoi |
|---|---|---|
| Frontend | Next.js 14 + Tailwind + shadcn/ui | Stack standard, déployable Vercel en 1 clic |
| LLM | OpenAI GPT-4o + Vercel AI SDK | SDK le plus simple pour le streaming |
| Vector DB | Pinecone Starter | Gratuit jusqu'à 1M vecteurs |
| Base de données | Neon (Postgres serverless) | Free tier généreux, compatible Vercel |
| Storage | Cloudflare R2 | Gratuit jusqu'à 10GB, zero egress fees |
| Monitoring LLM | LangSmith free tier | Tracer les appels, détecter les hallucinations |
🎯 AI Consulting pour Dev Senior
Auditer une stack, cadrer un POC, livrer de la valeur IA à des clients non-techniques. Pour les devs avec de l'expérience terrain.
Partie 1 — Qualifier un client
La première compétence du consultant IA c'est de savoir dire non. Pas à tout — mais identifier les projets qui ont de la valeur réelle vs ceux qui sont de la hype.
- Quel est le problème métier ? — Pas "on veut faire de l'IA", quel process est lent, coûteux ou source d'erreurs ?
- Où sont les données ? — Elles existent ? Elles sont propres ? Accessibles ? Contraintes RGPD ?
- Qui va l'utiliser ? — Y a-t-il un champion interne ? Un outil sans utilisateur = un POC mort.
- Quel est le critère de succès ? — Comment on sait dans 3 mois que c'est un succès ?
- Traitement de documents en volume
- Q&A sur une base de connaissance
- Classification ou extraction répétitive
- Support client de premier niveau
- Génération de contenu structuré
- Un process qui marche déjà bien
- Une règle métier simple et fixe
- Un problème de données manquantes
- Budget insuffisant pour maintenir
- RGPD bloque l'utilisation des données
- Si Microsoft Copilot ou Notion AI suffisent, dis-le — même si ça te coûte la mission
- Un consultant honnête qui dit "non" inspire plus confiance qu'un qui dit toujours "oui"
- Ta réputation long terme vaut plus qu'une mission mal vendue
Partie 2 — Mener un Audit IA
L'audit est ta mission d'entrée — 2 à 5 jours, facturée, qui ouvre la relation client sans engagement long terme des deux côtés.
- Audit express 2 jours : 2 000 à 3 500 €
- Audit complet 5 jours : 5 000 à 8 000 €
- Audit + POC inclus : 10 000 à 20 000 €
- TJM dev senior expérimenté : 700-900 €/jour minimum
Partie 3 — Cadrer un POC
- Problème : en une phrase, quel problème on résout ?
- Use case précis : pas "le support client" — "les emails entrants de niveau 1"
- Données : quelles données, quel volume, quel format, quel accès ?
- Critère de succès : 80% des questions répondues sans humain — chiffré et mesurable
- Périmètre exclu : ce qu'on ne fait PAS — anti scope creep, écrit noir sur blanc
- Durée et budget : date fixe + budget fixe — les deux inamovibles
- Décideur : qui valide côté client ?
- Pas de fallback : si l'API OpenAI est down, ton app est down. Toujours prévoir un message d'erreur clair.
- Pas de monitoring des coûts : une boucle d'agent qui part en vrille peut coûter des centaines d'€ en minutes.
- Pas de guardrails : sans filtres input/output, n'importe qui manipule le LLM. Même basiques, ils sont indispensables.
- Index jamais mis à jour : un RAG avec des données obsolètes est pire que pas de RAG.
Partie 4 — Parler à la direction
| Ce que tu dis en tech | Ce que tu dis à la direction |
|---|---|
| On va faire un RAG avec Pinecone | Le chatbot cherche dans vos docs avant de répondre |
| Le LLM va halluciner parfois | Le système peut se tromper — on prévoit une validation humaine |
| Ça coûte X tokens par requête | Le coût par conversation est de X centimes |
| Il faut fine-tuner le modèle | On va entraîner le système sur vos données métier |
| La latence est de 2-3 secondes | La réponse arrive en 2-3 secondes, comme Google |
| Objection client | Ta réponse |
|---|---|
| "L'IA va remplacer nos employés" | L'IA gère le répétitif, vos équipes se concentrent sur la valeur ajoutée |
| "C'est trop cher" | Le POC coûte X€. Le process actuel coûte Y€/mois. Payback en N mois. |
| "Et si ça dit des bêtises ?" | On conçoit avec validation humaine sur les cas sensibles dès le départ |
| "On a essayé, ça n'a pas marché" | Qu'est-ce qui n'a pas marché ? (souvent : mauvais use case ou données non propres) |
| "Nos données sont confidentielles" | Les données restent dans votre infra / on utilise Azure OpenAI avec accord DPA |
📄 Papers & Sources
Tous les termes utilisés dans cette formation s'appuient sur des publications réelles. Voici les sources primaires.