Déployer des modèles LLM en production
Atelier PratiqueEn ligne

Déployer des modèles LLM en production

12 NOV 202414:00 – 17:00 (CET)Zoom MeetingLimité à 50 places

À propos de cet événement

Cet atelier hautement technique s'adresse aux ingénieurs ML, data scientists et DevOps souhaitant passer de la phase d'expérimentation à la mise en production de grands modèles de langage (LLM). Nous aborderons les stratégies d'optimisation (quantization, distillation, ONNX), les architectures d'inférence (vLLM, TGI, Triton), la gestion des coûts et la supervision en production, via des exercices pratiques sur des cas réels.

Objectifs

Maîtriser les techniques de quantization et fine-tuning
Déployer un LLM via vLLM ou Text Generation Inference
Optimiser les coûts d'inférence en production
Mettre en place un système de monitoring robuste

Programme

14:00

Introduction & rappels architecturaux LLM

14:45

Optimisation : quantization 4-bit & GPTQ

15:30

Démo live : déploiement avec vLLM

16:15

Monitoring & alertes en production

16:50

Q&R & cas pratiques

Intervenants

YA

Youssef Alaoui

Staff ML Engineer — Scale AI

Inscription

Participer à cet événement

12 NOV 2024
14:00 – 17:00 (CET)
Zoom Meeting
Limité à 50 places

Réservé aux membres SAIEN. Rejoindre