Pourquoi l’observabilité est un levier business
Sur e-commerce, 1% d’erreur checkout ou 300ms de latence en trop se traduit en perte directe.
L’observabilité doit protéger :
- le chiffre d’affaires,
- l’expérience utilisateur,
- la capacité à livrer.
Les 3 piliers
- Metrics : latence, erreurs, saturation.
- Logs : diagnostics.
- Traces : parcours bout en bout.
Démarrer par les parcours, pas par les composants
Parcours typiques :
- home → PDP → add to cart → checkout → paiement.
Définir SLO :
- p95 latence,
- taux d’erreur,
- taux d’échec paiement.
Dashboards recommandés
- “Business health” : conversion, échecs paiement, erreurs checkout.
- “SLO” par parcours.
- “Infra” : CPU/mem, DB, cache, queue.
- “Releases” : impact déploiements.
Alerting : symptom-based
- Alerter sur symptôme (SLO breach), pas sur métrique brute.
- Définir budgets d’erreur.
- Exclure les alertes non actionnables.
Démarrage recommandé (en 10 jours)
- Choisir 2 parcours : checkout et search (ou PDP).
- Définir les SLO : latence p95, taux d’erreur, taux d’échec paiement.
- Mettre en place le tracing distribué (front → BFF → services → DB).
- Construire 3 dashboards : business health, SLO, releases.
- Mettre 5 alertes symptom-based et supprimer le bruit.
Exemples d’alertes utiles (symptom-based)
- SLO checkout en dépassement (p95 ou error rate)
- Taux d’échec paiement anormal (par PSP)
- Augmentation des timeouts sur un endpoint critique
- Saturation DB (latence + connexions) corrélée à baisse conversion
Runbooks et postmortems
- Runbooks courts : diagnostic → actions → escalade.
- Postmortem : causes, actions, owner, date.
Anti-patterns (observabilité qui ne sert à rien)
- Alertes sur CPU/ram sans lien avec le symptôme.
- Dashboards “infra only” sans métriques business.
- Absence de runbooks (on reçoit l’alerte, mais on ne sait pas quoi faire).
Checklist
- Parcours critiques définis
- SLO par parcours
- Tracing distribué activé
- Dashboards “business health”
- Alerting symptom-based
- Runbooks
Erreurs fréquentes
- Installer un outil de monitoring sans définir de SLO.
- Créer des dashboards que personne ne regarde.
- Alerter sur des métriques infra sans corrélation business.
FAQ
Par où commencer si on n’a rien ? Par les 2 parcours les plus critiques (checkout + search) et 5 alertes symptom-based. Pas besoin de tout couvrir au départ.
Datadog ou Grafana ? Les deux fonctionnent. Le choix dépend de votre contexte : Datadog est plus intégré (APM + logs + infra), Grafana + Prometheus donne plus de contrôle et coûte moins cher à l’échelle.