Atelier PratiqueEn ligne

Déployer des modèles LLM en production

12 NOV 202414:00 – 17:00 (CET)Zoom MeetingLimité à 50 places

À propos de cet événement

Cet atelier hautement technique s'adresse aux ingénieurs ML, data scientists et DevOps souhaitant passer de la phase d'expérimentation à la mise en production de grands modèles de langage (LLM). Nous aborderons les stratégies d'optimisation (quantization, distillation, ONNX), les architectures d'inférence (vLLM, TGI, Triton), la gestion des coûts et la supervision en production, via des exercices pratiques sur des cas réels.

Objectifs

Maîtriser les techniques de quantization et fine-tuning

Déployer un LLM via vLLM ou Text Generation Inference

Optimiser les coûts d'inférence en production

Mettre en place un système de monitoring robuste