OpenText Network Operations Management (NOM) — Gestion des événements & incidents

 Série Blog: OpenText NOM — Partie 3

➡ Partie 1 — SNMP expliqué
➡ Partie 2 — Découverte & supervision réseau

Après la découverte et la supervision, la couche suivante essentielle est la gestion des événements et des incidents.

La supervision indique ce qui se passe.
La gestion d’événements explique pourquoi cela se passe.
La gestion d’incidents garantit la résolution.

C’est le cœur d’un centre d’exploitation réseau (NOC).


📌 Qu’est-ce qu’un événement ?

Un événement est toute occurrence détectable dans le réseau:

  • Lien coupé

  • CPU élevé

  • Équipement injoignable

  • Erreurs d’interface

Tous les événements ne sont pas des incidents.


🖼️ Cycle d’un événement


Cycle d’événement dans NOM

1️⃣ Génération (polling ou trap)
2️⃣ Normalisation
3️⃣ Corrélation
4️⃣ Création d’alarme
5️⃣ Notification opérateur


📌 Qu’est-ce qu’un incident?

Un incident est un événement impactant le service nécessitant une action.

Exemples :

  • Panne switch cœur

  • Coupure WAN

  • Firewall hors service

La gestion d’incident inclut :

✔ Création ticket
✔ Attribution
✔ Escalade
✔ Suivi SLA


🖼️ Cycle d’incident


Événement vs Incident

ÉvénementIncident
Alerte bruteImpact métier
AutomatiqueAction requise
Auto-clear possibleRésolution nécessaire

Corrélation (analyse cause racine)

Une panne peut générer des centaines d’alertes.

Exemple :

Switch cœur down →
Switchs accès down →
Serveurs injoignables →
Applications indisponibles

Sans corrélation : centaines d’alarmes
Avec corrélation : une seule alarme racine


🖼️ Corrélation racine


Réduction du bruit

✔ Suppression alarmes
✔ Filtrage doublons
✔ Ajustement seuils
✔ Fenêtres maintenance

Évite la fatigue des opérateurs.


SLA et escalade

Définition :

  • Sévérité (Critique, Majeur, Mineur)

  • Temps de réponse

  • Matrice d’escalade

Exemple :

Sévérité 1 → Escalade 15 min
Sévérité 2 → Escalade 1 heure

Intégration ITSM

NOM s’intègre avec :

  • ServiceNow

  • Remedy

  • Jira

Événement → Ticket → Attribution → Résolution


Exemple réel

Pic bande passante WAN :

  1. Événement généré

  2. Seuil dépassé

  3. Incident créé

  4. Ticket assigné

  5. Cause identifiée

  6. Résolution

  7. Analyse post-incident


🖼️ Flux événement → incident


Bonnes pratiques

✔ Définir sévérité claire
✔ Corrélation efficace
✔ Éviter tempêtes d’alertes
✔ Automatisation
✔ Suivi MTTR


Métriques clés

MétriqueSignification
MTTRTemps moyen réparation
MTBFTemps entre pannes
Volume événementsTotal alertes
Faux positifsBruit

📚 Lecture recommandée


🎯 Conclusion

La découverte donne la visibilité.
La supervision donne les métriques.
La gestion d’événements donne l’intelligence.
La gestion d’incidents assure la résolution.

C’est le socle d’un NOC moderne.


💼 Support professionnel disponible

Si vous rencontrez des problèmes sur des projets réels liés au développement backend d’entreprise ou à l’automatisation des workflows, je propose des services de conseil payants, de débogage en production, de support projet et de formations ciblées.

Les technologies couvertes incluent Java, Spring Boot, PL/SQL, Azure, CMS, ainsi que l’automatisation des workflows (jBPM, Camunda BPM, RHPAM), DMN/Drools.

📧 Contact: ishikhanirankari@gmail.com | info@realtechnologiesindia.com

🌐 Website: IT Trainings | Digital lectern | Digital rostrum | Digital metal podium     


Comments

Popular posts from this blog

OOPs Concepts in Java | English | Object Oriented Programming Explained

Scopes of Signal in jBPM

jBPM Installation Guide: Step by Step Setup