Qu'est-ce qu'une fenêtre de contexte ?
Une fenêtre de contexte est la quantité maximale de texte (mesurée en tokens) qu'un modèle IA peut « voir » simultanément — incluant l'entrée (prompt, documents, historique de conversation) et la sortie générée.
Tailles des fenêtres de contexte
Les modèles 2024–2026 offrent des fenêtres de plus en plus grandes : GPT-4o — 128K tokens (~300 pages de texte), Claude — 200K tokens, Gemini — jusqu'à 2M tokens. Malgré cela, la fenêtre de contexte reste une contrainte : plus de texte signifie un coût plus élevé, une latence plus longue et potentiellement une qualité moindre.
Stratégies de gestion du contexte
Dans les systèmes d'entreprise, la gestion intelligente de la fenêtre de contexte est essentielle : RAG (fournir uniquement les fragments pertinents, pas des documents entiers), compression du contexte (résumé de l'historique de conversation), hiérarchie d'agents (chaque agent opère avec son propre contexte plus petit) et systèmes de mémoire (mémoire persistante hors de la fenêtre de contexte).