Serveru uzraudzība ir atšķirība starp problēmas atklāšanu pirms to pamana klienti un incidenta uzzināšanu no dusmīga telefona zvana. Labi strukturēta uzraudzības stratēģija nodrošina redzamību, brīdinājumus un vēsturiskos datus jaudas plānošanai.

Ko uzraudzīt

Galvenie rādītāji: CPU izmantojums (brīdinājums virs 80% pastāvīgi), RAM izmantojums (virs 90% ir kritisks), diska I/O latentums, tīkla caurlaidspēja un lietojumprogrammu atbildes laiki. Uzraugiet gan vidējos rādītājus, gan pīķus: serveris, kas katru minūti 10 sekundes sasniedz 100%, ir problemātisks, pat ja vidējais rādītājs izskatās labi.

Zabbix: uzņēmuma atvērtā koda risinājums

Zabbix ir pilnīgs atvērtā koda risinājums ar SNMP, JMX, IPMI, SSH un HTTP pārbaužu atbalstu. Ietver automātisku atklāšanu, brīdinājumu eskalāciju, SLA ziņojumus un veidnes simtiem parasto pakalpojumu. Mērogojams no viena servera līdz tūkstošiem hostu. Ideāls vidējai un lielai infrastruktūrai.

Prometheus + Grafana: DevOps kaudze

Prometheus apkopo rādītājus no eksportētājiem: node_exporter sistēmas rādītājiem, mysqld_exporter datubāzēm, nginx-prometheus-exporter tīmekļa serveriem. Grafana vizualizē datus ar pielāgojamiem informācijas paneļiem un atbalsta Alertmanager paziņojumiem. Lielisks konteineru un Kubernetes vidēm.

Pieejamības uzraudzība

Ārējā uzraudzība (UptimeRobot, Better Uptime) pārbauda jūsu pakalpojumus no ārpuses — nepieciešama, lai atklātu kļūmes, kuras iekšējā uzraudzība neredz. Iestatiet HTTP, TCP un atslēgvārdu pārbaudes. Iestatiet SMS vai zvanus kritiskajiem pakalpojumiem ar garantētiem SLA.

Brīdinājumu izstrāde

Brīdinājumu nogurums ir reāla problēma. Konfigurējiet brīdinājumus pēc smaguma pakāpes: kritiski incidenti (pakalpojums nav pieejams, disks virs 95%) — SMS vai zvans, brīdinājumi (liela slodze, palielināts kļūdu līmenis) — Slack vai e-pasts. Pārskatiet brīdinājumu noteikumus katru mēnesi.

Secinājums

E24 BALTIC izvieto un uztur Zabbix vai Prometheus/Grafana kaudzes klientiem visā Baltijā. Konfigurējam informācijas paneļus, brīdinājumu maršrutēšanu un dežūras eskalāciju. Sazinieties ar mums, lai saņemtu uzraudzības auditu.