alexa Alerting, Escalation and Event Log Management in NetCrunch

Alerting, Escalation and Event Log Management in NetCrunch

NetCrunch może pełnić rolę serwera wpisów do dziennika dla zewnętrznych źródeł zdarzeń. Program przechowuje wpisy w bazie zdarzeń i wykonuje określone akcje (np. powiadomienia) w odpowiedzi na alarmy.

Alert Sources

Wyzwalacze metryk wydajnościowych

NetCrunch może śledzić tysiące metryk wydajnościowych. Niezależnie od pochodzenia danej metryki, użytkownik może używać tego samego zbioru warunków do wyzwalania alarmów dla rzeczywistych lub średnich wartości metryk.

Oprócz ustawianie prostych progów, NetCrunch posiada bardziej zaawansowane wyzwalacze, w tym wyzwalacze dla historycznych wartości bazowych, które porównują dane rzeczywiste do wartości bazowych danej metryki zebranych dla każdej godziny każdego dnia w tygodniu.

Innym użytecznym typem wyzwalacza jest Wyzwalacz stanu, który pozwala śledzić zmiany wartości nieciągłych (na przykład zmiana wartości z 0 na 1). Jest to sytuacja, gdzie licznik reprezentuje status usługi lub urządzenia.

Dostępne typy wyzwalaczy:

  • Wartość progowa
  • Odchylenie od wartości progowej
  • Wartość progowa historycznych danych bazowych
  • Wyzwalacz stanu
  • Stała wartość
  • Wartość istnieje/Brak wartości
  • Delta
  • Zakres

Wyzwalacze zdarzeń

Alarmy statusu

NetCrunch śledzi status wielu monitorowanych objektów, takich jak: węzły, interfejsy, usługi, usługi Windows, i wiele innych. Takie typy alarmów są automatycznie skorelowane.

Sensory

NetCrunch używa sensorów do wykonywania bardziej złożonych zadań monitorowania, jak monitorowanie zawartości pliku, emaili, stron internetowych i sprawdzanie odpowiedzi HTTP.

Dzienniki zdarzeń Windows

NetCrunch może zdalnie zbierać, filtrować i analizować dane dziennika zdarzeń z wielu maszyn Windows.

Pozwala to na definiowanie filtrów alarmowych, które konwertują wpisy o zdarzeniach w alarmy NetCruncha. Dodatkowo, program grupuje zdarzenia, jeśli takie same zdarzenia generowane są co kilka sekund - chroni to system przed zalewem alarmów.

@@event-log-query.png Kreator filtrów dziennika zdarzeń Windows

Komunikaty syslog, trapy SNMP i logi tekstowe

NetCrunch odbiera trapy SNMPv1, SNMPv2 i SNMPv3. Może również przekazywać wszystkie odebrane trapy do innego managera SNMP.

NetCrunch może też pełnić rolę serwera komunikatów syslog. Można zdefiniować filtry dla alarmów przychodzących aby przydzielić odpowiednią akcję każdej wiadomości.

Alarmy na podstawie przykładu

Wszystkie przychodzące trapy i komunikaty syslog (nawet od węzłów niemonitorowanych w Atlasie) widoczne są w oknie Zdarzeń zewnętrznych. Jednym kliknięciem można przekształcić je w alarmy (węzeł zostanie dodany do Atlasu jeśli trzeba). Oznacza to, że NetCrunch umożliwia definiowanie alarmów dla trapów "na podstawie przykładowego" trapu.

Monitorowanie wpisów tekstowych

Sensor plików w NetCrunchu potrafi monitorować tekstowe wpisy do dziennika; może być używany do monitorowania plików linuxowych za pomocą FTP/s lub HTTP/s.

Dane zewnętrzne

NetCrunch oferuje kilka sposobów dostarczania danych do programu. Mogą to być typowe liczniki wydajnościowe lub liczniki o wartościach nieciągłych oznaczających kody błędów lub wartości statusów. W obu sytuacjach NetCrunch udostępnia wyzwalacze do tworzenia alarmów dla takich wartości.

Open Monitor

Alert Processing

Korelacja alarmów trwających

Wszystkie wewnętrzne alarmy w NetCrunchu są automatycznie skorelowane, zatem NetCrunch wie kiedy alarm się rozpoczyna i kiedy kończy (zamyka).

Alarmy zewnętrzne (jak komunikaty syslog, trapy SNMP, zdarzenia Windows) mogą zostać skorelowane poprzez dodanie zdarzenia zamykającego w oknie definicji alarmu. Pozwala to skupić się tylko na nierozwiązanych problemach. Co więcej, na zakończenie zdarzeń mogą być wykonywane określone akcje, co pozwala w prosty sposób zintegrować NetCruncha z innymi systemami (np helpdesk).

@@3pending-alerts.png Widok alarmów trwających

Zaawansowana korelacja

NetCrunch (tylko edycja PremiumXE) zawiera globalny pakiet monitorowania ze zdarzeniami korelującymi, który pozwala na korelację zdarzeń z wielu węzłów. Funkcja ta przydaje się na przykład do definiowania alarmów tylko dla sytuacji gdy oba węzły przestaną działać (połączenia redundantne).

Alarmy mogę być wyzwalane gdy wszystkie zdarzenia mają status trwający (wszystkie zdarzenia muszą mieć korelację), albo poprzez określenie ram czasowych kiedy zdarzenia te mają zachodzić. Tak skorelowane alarmy mogą być użyte dla dowolnych zdarzeń uprzednio zdefiniowanych dla jakiegokolwiek węzła w Atlasie.

Alarmy warunkowe

NetCrunch pozwala na definiowanie dodatkowych warunków dla każdego zdefiniowanego alarmu, niezależnie od tego, czy jest to status węzła, alarm wpisu do dziennika zdarzeń czy trap SNMP. Warunki te pozwalają wyzwolić wykonanie akcji nawet jeśli zdarzenie nie zaszło. Na przykład, jeśli nie pojawił się wpis w dzienniku potwierdzający wykonanie określonej operacji (np backup). NetCrunch może również odbierać zdarzenia typu puls (heartbeat) i powiadamiać jeśli przestaną przychodzić. Inny warunek pozwala wstrzymać wykonywanie alarmy na określony czas (ponieważ alarm nie zostaje wyzwolony, akcje zamykające również nie będą wykonane).

Dostępne warunki

  • w razie zdarzenia
  • jeśli zdarzenie zaszło po czasie x
  • jeśli zdarzenie zaszło więcej niż x razy
  • tylko jeśli (zaszło) w zadanym okresie czasu
  • tylko jeśli (zaszło) poza zadanym okresem czasu
  • jeśli zdarzenie nie zaszło w zadanym okresie czasu
  • jeśli zdarzenie nie zaszło po upływie x czasu
  • jeśli zdarzenie ma status trwające dłużej niż x

NetCrunch wspiera reguły alarmów od prostych zakresów po złożone schematy.

@@time-range-scheme.png Złożony schemat czasowy

Alerting Actions

Akcje

W odpowiedzi na zdarzenie, NetCrunch może wykonać ciąg akcji. Akcje mogą być też wykonane w momencie zamknięcia alarmu. NetCrunch zawiera wiele akcji, w tym: powiadomienia, wpisy, akcje kontrolne i zdalne skrypty.

Powiadomienia są bardzo elastyczne i mogą być zarządzane poprzez profile użytkowników i grup. Dodatkowo, można je powiązać z grupą (w Atlasie), do której należy węzeł, co pozwala wysyłać różne powiadomienia do różnych grup w zależności od lokalizacji węzła albo innej jego cechy.

Akcje predefiniowane

  • Podstawowe akcje: Zagraj dźwięk, Wyświetl okno powiadomienia na desktopie, Dodaj traceroute do wiadomości alarmowej, Dodaj status usługi sieciowej do wiadomości, Powiadom użytkownika lub grupę, Email, SMS przez email, SMS przez komórkę
  • Akcje kontrolne komputera: Uruchom program WIndows, Uruchom skrypt Windows, Uruchom skrypt SSH, Restartuj komputer, Zamknij (ShutDown) komputer, Ustaw zmienną SNMP, Zakończ proces Windows, Kontroluj usługę Windows, Wake on LAN
  • Akcje kontrolne NetCruncha: Zmień stan monitorowania węzła, Modyfikuj listę problemów węzła, Ustaw problem monitorowania na podstawie zdarzenia, Usuń problem monitorowania na podstawie zdarzenia
  • Akcje lokalnego zapisu: Zapisz do pliku, Zapisz do dziennika zdarzeń Windows, Zapisz do unikalnego pliku,
  • Akcje zdalnego zapisu: Wyślij trap SNMP, Wyślij komunikat syslog, Wyzwól WebHook
  • Zdalne skrypty dla systemu Linux: Shutdown, Reboot, Restart SNMP Daemon, Mount CD-ROM, Dismount CD-ROM
  • Windows: Uruchom defragmentacje dysku, Uruchom serwis SNMP, Zatrzymaj serwis SNMP

Alerting Actions

Eskalacja akcji i wykonanie warunkowe

Akcje mogą być wykonane natychmiast lub z opóźnieniem (jeśli alarm się nie skończy), a ostatnia akcja może być powtarzana. Dodatkowo, możesz wskazać akcje które będą wykonane automatycznie w chwili zamknięcia alarmu.

Na przykład, można ustawić wysyłanie powiadomienia do wybranej osoby, a po pewnym czasie, wykonanie operacji restartu serwera.

@@sample-script.png Przykładowy skrypt alarmowy

Powyższy skrypt wykonuje powiadomienia tylko dla alarmów krytycznych i restartuje węzeł wywołujący zdarzenie jeśli jest to węzeł Serwer Windows.

Event Log Views

Alarmy trwające

Ten osobny widok pokazuje tylko bieżące alarmy zamiast zmuszać administratora do przeglądania dziennika zdarzeń gromadzącego historię wszystkich alarmów. Widoki dziennika zdarzeń mogą być synchronizowane z oknem drzewa Atlasu. Oznacza to, że jeśli będąc w widoku alarmy trwające klikniesz na inny wybrany widok jak lokalizacja czy grup węzłów (np serwerów), automatycznie zostaną wyświetlone alarmy trwające dla tej grupy węzłów.

Podsumowanie

Widok ten pokazuje statystyki danego widoku, pogrupowane dla kategorii monitorowania i widoków własnych. Pozwala to na szybki przegląd jakie typy alertów wydarzyły się w danym okresie czasu.

@@event-summary.png Podsumowanie zdarzeń w ostatnich 24h

Widoki własne dziennika zdarzeń

NetCrunch zawiera wiele widoków gotowych i pozwala tworzyć widoki własne za pomocą intuicyjnego kreatora. Widoki mogą być zapisane i używane dla dowolnej grupy węzłów w Atlasie.

@@custom-view.png Kreator widoków i wybór zakresu danych

Szczegóły zdarzenia

Dla każdego zdarzenia w dzienniku zdarzeń, NetCrunch posiada okno Szczegółów zawierające wszystkie parametry i inne informacje dotyczące alarmu. Okno pokazuje wszystkie wykonane akcje oraz jakie zdarzenie zamknęło ten alarm.

Jeżeli alarm został wyzwolony dla wartości licznika wydajnościowego, wyświetlany jest wykres pokazujący jej wartość w czasie alarmu.

@@event-details.png Szczegóły zdarzenia