Surveillance Continue

Notre application est maintenant déployée et mise à la disposition des utilisateurs finaux.
Nous dévons donc grarantir un niveau de service afin de préserver notre image de marque et concerver notre position stratégique sur le marché.

Pour se faire, il faut sans cesse surveiller l'environnement ainsi que tous les composants applicatifs qui sont hébergés afin de détecter et corriger les problèmes avant même que les utilisateurs ne les remontent.

Pour y parvenir, nous allons mettre uen place des tableaux de bord (Dashboard) qui vont nous permettre de surveiller l'ensembles des métriques (CPU, RAM, Network, DISK) de nos environnements ainsi que l'état des services.

Afin de mieux comprendre l'état des services, nous devons choisir la une méthode d'analyse des données.
Cela peut etre la moyenne mais nous allons privilegier les percentiles.
En fonction du niveau de services que l'on veut forunir, les percentile peut soit être 90, 95 ou 99.

Pour collecter les métiques, nous nous servons des outils suivants:

Prometheus : Pour collecter toutes les métriques dans le cluster (CPU, RAM, Networking,...)
Grafana: Pour visualiser les métriques obtenues via prometheus
LOKI ou EFK (ElasticSearch, Fluentd, Kibana) pour l'analyse des logs application