Netdata ist großartig, wenn Sie etwas Leichtgewichtiges wollen, das sofort funktioniert, aber irgendwann stoßen viele Teams an ihre Grenzen - Skalierung, tiefere Integrationen, bessere Warnmeldungen oder einfach schönere Diagramme. Im Folgenden finden Sie 14 Tools, die regelmäßig auftauchen, wenn Leute nach dem nächsten Schritt suchen. Bei einigen handelt es sich um umfangreiche All-in-One-Plattformen, bei anderen um hyperfokussierte Tools und bei einigen um reine Visualisierungsschichten. Suchen Sie sich das aus, was der Lücke entspricht, die Sie spüren.

1. AppFirst
AppFirst ist eine neuere Plattform, die es Entwicklern ermöglichen soll, Anwendungen bereitzustellen, ohne selbst Terraform- oder Cloud-spezifischen Code schreiben zu müssen. Sie teilen der Plattform mit, was Ihre Anwendung benötigt - CPU, Datenbank, Netzwerk, Container-Image - und sie stellt die zugrunde liegende Infrastruktur in AWS, Azure oder GCP bereit, wobei alle Sicherheitsvorgaben bereits berücksichtigt werden.
Es richtet sich an Teams, die möchten, dass die Entwickler den gesamten Lebenszyklus ihres Dienstes selbst verwalten, aber nicht wollen, dass sie tagelang VPC-Layouts lernen oder IAM-Richtlinien schreiben müssen. Die Idee ist, dass die Plattform sich um die wiederholbaren Infrastrukturelemente kümmert, damit sich die Ingenieure auf den eigentlichen Produktcode konzentrieren können.
Wichtigste Highlights:
- Bereitstellung vollständiger Anwendungsumgebungen aus einfachen Deklarationen
- Funktioniert bei allen wichtigen Cloud-Anbietern
- Automatische Anwendung von Sicherheits- und Compliance-Einstellungen
- Bietet integrierte Protokollierung, Überwachung und Kostenverfolgung
- SaaS- oder selbst gehostete Bereitstellungsoptionen
Informationen zu Kontakt und sozialen Medien:
- Website: www.appfirst.dev

2. Zabbix
Zabbix ist eine Open-Source-Observability-Lösung für die Überwachung von IT- und OT-Umgebungen, einschließlich Cloud-Infrastruktur, Netzwerken, Diensten und IoT-Geräten. Sie bietet eine einheitliche Sicht auf die Systeme durch eine einzige Glasscheibe und ermöglicht die Integration mit bestehenden Infrastrukturkomponenten. Sie kann vor Ort oder in der Cloud eingesetzt werden und unterstützt die Überwachung von Rechenzentren, Edge-Geräten und hybriden Setups.
Die Lösung konzentriert sich auf das Sammeln und Verarbeiten von Daten, um einen Überblick über die Leistung und Verfügbarkeit zu erhalten, und bietet Funktionen für die automatische Erkennung und Verfolgung in Echtzeit. Der Schwerpunkt liegt auf Skalierbarkeit und Stabilität, um die betriebliche Effizienz in unterschiedlichen Umgebungen zu erhalten.
Wichtigste Highlights:
- Open-Source, keine Lizenzgebühren oder Gebühren pro Gerät.
- Unterstützt den Einsatz vor Ort für volle Kontrolle und Datenschutz.
- Bietet Integrationen mit bestehenden Systemen für eine umfassende Überwachung.
- Bietet 24/7-Support über ein globales Partnernetzwerk.
- Ermöglicht einen mandantenfähigen Betrieb, der für Managed Service Provider geeignet ist.
Informationen zu Kontakt und sozialen Medien:
- Website: www.zabbix.com
- E-Mail: sales@zabbix.com
- Facebook: www.facebook.com/zabbix
- Twitter: x.com/zabbix
- LinkedIn: www.linkedin.com/company/zabbix
- Anschrift: 211 E 43rd Street, Suite 7-100, New York, NY 10017, USA
- Telefon: +18774922249
3. Prometheus
Prometheus ist ein Open-Source-Überwachungssystem und eine Zeitreihendatenbank, die ein dimensionales Datenmodell verwendet, um Zeitreihen durch metrische Namen und Schlüssel-Wert-Paare zu identifizieren. Es verfügt über die Abfragesprache PromQL, die das Abfragen, Korrelieren und Transformieren von Zeitreihendaten für Zwecke wie Visualisierungen und Alarme ermöglicht. Alerting-Regeln, die mit PromQL definiert werden und das dimensionale Modell nutzen, werden von einer separaten Alertmanager-Komponente für Benachrichtigungen und Silencing verwaltet. Das System arbeitet mit unabhängigen Servern, die auf lokalen Speicher angewiesen sind, und seine in Go entwickelten Binärdateien erleichtern den Einsatz in verschiedenen Umgebungen.
Dieses Setup ermöglicht die Verarbeitung von Metriken aus Anwendungen und Diensten auf eine Art und Weise, die auf Cloud-native Setups ausgerichtet ist, obwohl es die Dinge modular genug für andere Kontexte hält. Es geht darum, Daten zuverlässig zu erfassen und sie ohne großen Overhead abfragbar zu machen.
Wichtigste Highlights:
- Flexibles dimensionales Datenmodell zur Identifizierung von Zeitreihen über metrische Namen und Schlüssel-Wert-Paare.
- PromQL-Abfragesprache zur Abfrage, Korrelation und Umwandlung von Zeitreihendaten.
- Alerting-Regeln auf der Grundlage von PromQL, wobei Alertmanager die Benachrichtigungen und das Silencing übernimmt.
- Unabhängige Server mit lokaler Speicherung, mit statisch verknüpften Go-Binärdateien für die Bereitstellung.
- Instrumentierungsbibliotheken und Integrationen zur Extraktion von Metriken aus Systemen.
Informationen zu Kontakt und sozialen Medien:
- Website: prometheus.io
- E-Mail: prometheus.io
- App Store: apps.apple.com/ru/app/prometheus-metrics-reader/id6448750573

4. Grafana IRM
Grafana ist eine offene und komponierbare Observability-Plattform, die es Benutzern ermöglicht, Daten aus verschiedenen Quellen abzufragen, zu visualisieren und zu melden. Sie unterstützt die Überwachung von Anwendungen, Infrastruktur und anderen Systemen durch Dashboards und vorgefertigte Lösungen. Grafana lässt sich mit Telemetriedaten wie Metriken, Protokollen, Traces und Profilen integrieren und ermöglicht so die Erstellung von Visualisierungen und Alarmen auf der Grundlage von Daten aus verschiedenen Backends.
Besonders hervorzuheben ist, dass es als Front-End-Schicht fungiert, die Punkte zwischen verschiedenen Tools verbindet, anstatt zu versuchen, alles selbst zu machen. Am Ende erhält man anpassbare Ansichten, die aus gemischten Datenquellen Sinn machen, was sich weniger chaotisch anfühlt, wenn man mit mehreren Systemen jongliert.
Wichtigste Highlights:
- Grafana bietet Visualisierungsfunktionen für Daten aus verschiedenen Quellen, einschließlich Unterstützung für Protokolle, Metriken, Traces und Profile.
- Es bietet Überwachungslösungen für Anwendungen, Infrastruktur und spezifische Technologien wie Kubernetes und Datenbanken.
- Grafana enthält Alarmierungsfunktionen, die Benachrichtigungen von jeder angeschlossenen Datenquelle auslösen.
- Die Plattform unterstützt Plugins zur Verbindung mit zusätzlichen Datenquellen, Anwendungen und Tools.
- Grafana erleichtert das Incident Response Management mit Workflows für das Bereitschaftsmanagement und die Bearbeitung von Vorfällen.
Informationen zu Kontakt und sozialen Medien:
- Website: grafana.com
- E-Mail: info@grafana.com
- Facebook: www.facebook.com/grafana
- Twitter: x.com/grafana
- LinkedIn: www.linkedin.com/company/grafana-labs
- App Store: apps.apple.com/ru/app/grafana-irm
- Google Play: play.google.com/store/Grafana

5. Checkmk
Checkmk begann vor Jahren als Fork von Nagios, hat sich aber zu einer eigenen Lösung mit einem viel schnelleren Kern und weit weniger manuellem Aufwand entwickelt. Checkmk wird eingesetzt, wenn man von physischen Servern bis hin zu Cloud-Instanzen und Containern alles überwachen möchte, ohne eine Menge benutzerdefinierter Skripte schreiben zu müssen. Das System findet automatisch neue Geräte, findet heraus, welche Dienste laufen, und wendet die richtigen Prüfungen an, sodass man sich nicht den ganzen Tag durch Menüs klicken muss, um einen einzigen Host hinzuzufügen.
Viele Teams mögen die Tatsache, dass es eine richtige Open-Source-Version gibt, die man für immer nutzen kann, ohne dafür zu bezahlen, aber auch kostenpflichtige Versionen, die Dinge wie verteilte Überwachungsstellen oder engere Cloud-Integrationen hinzufügen. Wenn Sie gerne an Plug-ins feilen oder eigene schreiben, hat die Plattform nichts dagegen - alles ist skriptfähig und die API ist anständig.
Wichtigste Highlights:
- Automatische Host-Erkennung und Dienstkonfiguration
- Die Rohfassung ist vollständig quelloffen und kostenlos
- Kostenpflichtige Editionen für verteilte Setups und Cloud-Workloads
- REST API für Automatisierung und benutzerdefinierte Integrationen
Informationen zu Kontakt und sozialen Medien:
- Website: checkmk.com
- E-Mail: sales@checkmk.com
- Facebook: www.facebook.com/checkmk
- Twitter: x.com/checkmk
- LinkedIn: www.linkedin.com/company/checkmk
- Google Play: play.google.com/store/Checkmk
- Anschrift: Checkmk GmbH Kellerstraße 27 81667 München Deutschland
- Telefon: +44 20 3966 1150

6. Datadog
Datadog ist eines dieser Tools, die überall auftauchen, sobald Unternehmen in der Cloud leben. Sie setzen einen kleinen Agenten auf Ihren Boxen ab (oder überspringen ihn ganz für Serverless), und plötzlich haben Sie Metriken, Traces und Protokolle, die an einem Ort zusammenlaufen. Die Dashboards sind übersichtlich, und das Tagging-System macht es einfach, Daten nach Belieben aufzuschlüsseln - nach Team, Umgebung, Kunde, was auch immer.
Es lehnt sich stark an moderne Stacks an: Kubernetes, Docker, AWS Lambda, all die üblichen Verdächtigen. Wenn Sie bereits für eine Cloud-Rechnung in der Größe einer Autorechnung zahlen, fühlt sich Datadog ziemlich natürlich an, weil es die gleiche Sprache wie der Rest Ihrer Infrastruktur spricht.
Wichtigste Highlights:
- Ein einziger Agent sammelt Metriken, Spuren und Protokolle
- Starke Kubernetes- und serverlose Abdeckung von Anfang an
- Kennzeichnungs- und Filtersystem für die Organisation großer Umgebungen
- Sicherheitsüberwachung in Echtzeit zusammen mit Leistungsdaten
- Hunderte von schlüsselfertigen Integrationen mit Cloud-Diensten
Informationen zu Kontakt und sozialen Medien:
- Website: www.datadoghq.com
- E-Mail: info@datadoghq.com
- Twitter: x.com/datadoghq
- LinkedIn: www.linkedin.com/company/datadog
- Instagram: www.instagram.com/datadoghq
- App Store: apps.apple.com/us/app/datadog
- Google Play: play.google.com/store/apps/datadog.app
- Anschrift: 620 8th Ave 45th Floor New York, NY 10018 USA
- Telefon: 866 329-4466

7. New Relic
New Relic gibt es schon so lange, dass die Hälfte des Internets wahrscheinlich immer noch irgendwo ihren Java-Agent installiert hat. Heutzutage versucht es, das einzige Dashboard zu sein, das Hosts, Container, Anwendungen und sogar die Browserseite der Dinge abdeckt. Sie erhalten Metriken, verteiltes Tracing, Fehlerverfolgung und Protokolle, ohne mit fünf verschiedenen Tools jonglieren zu müssen.
Teams, die bereits über eine Mischung aus herkömmlichen Servern und neueren Cloud-nativen Anwendungen verfügen, scheinen hier häufig zu landen. Die Preise sind nutzungsabhängig, d. h. Sie zahlen nur für die tatsächlich gesendeten Daten, was die Finanzabteilung vor einem Herzinfarkt bewahrt, wenn der Datenverkehr ansteigt.
Wichtigste Highlights:
- Ganzheitliche Sicht von der Infrastruktur bis zum Browser
- Verteiltes Tracing über Dienste hinweg
- Nutzungsabhängige Preise mit einer großzügigen kostenlosen Stufe
- Integrierte Anomalieerkennung und Warnmeldungen
- Überwachung der Leistung von Mobilgeräten und Browsern inklusive
Informationen zu Kontakt und sozialen Medien:
- Website: newrelic.com
- Facebook: www.facebook.com/NewRelic
- Twitter: x.com/newrelic
- LinkedIn: www.linkedin.com/company/new-relic-inc-
- Instagram: www.instagram.com/newrelic
- App Store: apps.apple.com/ru/app/new-relic
- Google Play: play.google.com/store/newrelic
- Anschrift: 1100 Peachtree Street NE, Suite 2000, Atlanta, GA 30309, USA
- Telefon: (585) 632-6563

8. Dynatrace
Dynatrace läuft als Single-Agent-Plattform, die alles von der Infrastruktur und den Anwendungen bis hin zu Benutzersitzungen und Sicherheitssignalen überwacht. Es zieht Metriken, Traces, Protokolle und Ereignisse ein und versucht dann, die Punkte automatisch zu verbinden, damit die Mitarbeiter weniger Zeit damit verbringen, herauszufinden, warum etwas nicht funktioniert. Das System stützt sich auf seine eigene KI-Engine, um Muster zu erkennen und Vorschläge zu machen, was falsch sein könnte, bevor eine Flut von Warnungen eintrifft.
Viele größere Teams entscheiden sich für diese Lösung, wenn sie ein Tool benötigen, das den gesamten Stack abdeckt, ohne dass separate Produkte zusammengefügt werden müssen. Sie installieren den Agenten, richten ihn auf Ihre Cluster oder Hosts und er beginnt selbstständig mit dem Mapping von Abhängigkeiten.
Wichtigste Highlights:
- Ein einziger Agent für eine umfassende Datenerfassung
- Automatische Zuordnung von Abhängigkeiten zwischen Diensten
- Integrierte KI zur Erkennung von Anomalien und Vorschlägen für die Ursachenforschung
- Umfasst Anwendungen, Infrastruktur, Protokolle und Benutzererfahrung
- Unterstützt Cloud-native und traditionelle Umgebungen
Informationen zu Kontakt und sozialen Medien:
- Website: www.dynatrace.com
- E-Mail: sales@dynatrace.com
- Facebook: www.facebook.com/Dynatrace
- Twitter: x.com/Dynatrace
- LinkedIn: www.linkedin.com/company/dynatrace
- Instagram: www.instagram.com/dynatrace
- App Store: apps.apple.com/ru/app/dynatrace-4-0
- Google Play: play.google.com/store/Dynatrace
- Anschrift: 280 Congress Street, 11th Floor Boston, MA 02210 Vereinigte Staaten von Amerika
- Telefon: 18888333652

9. Icinga
Icinga ist aus der alten Nagios-Welt hervorgegangen, hat aber viele Ecken und Kanten bereinigt und eine eigene Weboberfläche und Konfigurationstools hinzugefügt. Es wird immer noch für klassische Server- und Netzwerküberprüfungen verwendet, aber es kann auch Kubernetes und Cloud-Zeug ohne viel zusätzliche Arbeit verarbeiten. Die Einrichtung bleibt ziemlich flexibel - Sie können alles in Textdateien speichern oder das Director-Modul verwenden, wenn Sie eine grafische Benutzeroberfläche bevorzugen.
Es ist eines der Tools, die nie wirklich verschwunden sind, weil eine Menge Sysadmins bereits wissen, wie es funktioniert, und die Community immer wieder neue Plug-ins entwickelt. Wenn Sie mit Prüfskripten und ein wenig Kommandozeilenarbeit vertraut sind, läuft es einfach weiter.
Wichtigste Highlights:
- Klassische Host- und Serviceprüfung mit Plug-ins
- Option für Webinterface und Konfigurationsdatenbank
- Unterstützt verteilte Setups mit mehreren Zonen
- Verwaltung von Servern, Netzwerken und Containern
- Vollständig quelloffener Kern
Informationen zu Kontakt und sozialen Medien:
- Website: icinga.com
- E-Mail: info@icinga.com
- Facebook: www.facebook.com/icinga
- LinkedIn: www.linkedin.com/company/icinga
- Anschrift: Icinga GmbH Deutschherrnstr. 15-19 90429 Nürnberg, Deutschland
- Telefon: +49 911 9288555

10. OpenNMS
OpenNMS gibt es seit jeher als rein netzwerkorientiertes Überwachungssystem, das sich zu etwas Größerem entwickelt hat. Angefangen hat es mit der Abfrage von Geräten über SNMP, aber jetzt bietet es Flussanalyse, Ereigniskorrelation und sogar einige Prüfungen auf der Anwendungsebene. Das Ganze bleibt vollständig quelloffen, und das Unternehmen, das dahinter steht, verdient sein Geld mit Support-Abonnements für die stabilen Meridian-Versionen.
Teams, die große oder verteilte Netzwerke verwalten, scheinen häufig hier zu landen, weil es horizontal skalierbar ist und nicht an Tausenden von Schnittstellen scheitert. Sie setzen es ein, lassen es Ihr Netzwerk erkennen, und es beginnt mit der grafischen Darstellung der gefundenen Daten.
Wichtigste Highlights:
- Starke SNMP-Abfrage und Flusserfassung
- Ereignisgesteuerte Architektur mit Korrelationsregeln
- Verteiltes Minion-Setup für große Umgebungen
- Eingebaute Tools zur Verkehrsanalyse
- 100 % Open-Source mit optionaler kostenpflichtiger Unterstützung
Informationen zu Kontakt und sozialen Medien:
- Website: www.opennms.com
- E-Mail: contactus@opennms.com
- Facebook: www.facebook.com/OpenNMS
- Twitter: x.com/opennms
- LinkedIn: www.linkedin.com/company/the-opennms-group
- Adresse: 2871 Lake Vista Drive Lewisville, TX 75067
- Telefon: +1 919-533-0160

11. SigNoz
SigNoz ist ein neueres Open-Source-Tool, das versucht, Logs, Metriken und Traces an einem Ort zu speichern, anstatt separate Systeme zu betreiben. Teams, die bereits OpenTelemetry verwenden, sollten einen Blick darauf werfen, da es diese Sprache nativ spricht und alles in ClickHouse speichert, das große Mengen ohne große Beschwerden verarbeiten kann. Sie können es selbst auf einigen wenigen Servern betreiben oder es hosten lassen, wenn Sie den Betriebsaufwand nicht wollen.
Die meisten Leute, die darauf umsteigen, scheinen von den kostenpflichtigen großen Plattformen zu kommen und wollen einfach etwas, das sie tatsächlich kontrollieren und erweitern können, ohne überraschende Rechnungen zu erhalten. Es ist noch im Wachstum begriffen, aber die Grundlagen sind vorhanden - Dashboards, Warnmeldungen, Nachverfolgung von Ausnahmen, die üblichen Dinge, die man erwartet, wenn man über Spielzeugprojekte hinausgeht.
Wichtigste Highlights:
- Aufbauend auf OpenTelemetry für Logs, Traces und Metriken
- Verwendet ClickHouse als Backend-Speicher
- Selbstgehostete oder verwaltete Cloud-Optionen
- Eine einzige Benutzeroberfläche für alle Signale mit Korrelation zwischen ihnen
- Keine an Nutzer oder Hosts gebundenen Preise
Informationen zu Kontakt und sozialen Medien:
- Website: signoz.io
- Twitter: x.com/SigNozHQ
- LinkedIn: www.linkedin.com/company/signozio

12. Kakteen
Cacti ist seit jeher die erste Wahl für alle, die im SNMP-Gebiet leben, um Grafiken zu erstellen. Man richtet es auf Switches, Router, Server, was auch immer SNMP spricht, und es beginnt, hübsche Round-Robin-Diagramme mit RRDTool darunter zu zeichnen. Die Benutzeroberfläche sieht aus, als hätte sie sich in fünfzehn Jahren kaum verändert, und das ist für viele Netzwerkleute, die einfach nur zuverlässige Langzeitgraphen ohne Drama wollen, auch ganz in Ordnung.
Die Leute benutzen es immer noch, weil es eine Sache wirklich gut macht und nicht versucht, alles für jeden zu sein. Wenn Ihr Job darin besteht, ein Auge auf Schnittstellenzähler und Bandbreitentrends auf einem Campus oder in einem Rechenzentrum zu haben, wird Cacti immer noch häufiger in neue Setups integriert, als Sie denken.
Wichtigste Highlights:
- Klassische SNMP-Abfrage und RRDTool-Darstellung
- Schablonensystem für Geräte und Diagramme
- Plugin-Architektur zum Hinzufügen zusätzlicher Funktionen
- Rollenbasierte Benutzerverwaltung
- Funktioniert von kleinen LANs bis hin zu großen Netzwerken
Informationen zu Kontakt und sozialen Medien:
- Website: www.cacti.net

13. LibreNMS
LibreNMS ist aus dem alten Observium-Fork hervorgegangen und hat sich zu einem eigenständigen Programm mit einem aufgeräumteren Aussehen und einer stärker von der Gemeinschaft getragenen Entwicklung entwickelt. Es erkennt Ihr Netzwerk automatisch mit den üblichen Protokollen, erstellt Karten, verfolgt Ports und gibt Warnungen aus, wenn etwas ausfällt oder seltsam wird. Die Web-Oberfläche ist modern genug, dass man nicht zusammenzuckt, wenn man sie auf einem Telefon öffnet.
Ein Großteil der ISPs und Unternehmen mit großen Layer-2/3-Konfigurationen schwören immer noch darauf, weil es einfach funktioniert und nichts kostet, es sei denn, man möchte offiziellen Support. Man installiert es, lässt es scannen, und plötzlich sieht man, welcher Kunde nachts um 3 Uhr auf die Verbindung einhämmert.
Wichtigste Highlights:
- Automatische Erkennung über SNMP, CDP, LLDP, OSPF, BGP
- Bandbreitenabrechnung auf Basis der Portnutzung
- Verteilte Abfrage für größere Netzwerke
- Integration mit Oxidized, RANCID und anderen Tools
- Vollständige REST-API für die Skripterstellung
Informationen zu Kontakt und sozialen Medien:
- Website: www.librenms.org
- Facebook: www.facebook.com/LibreNMS
- Twitter: x.com/LibreNMS

14. Pandora FMS
Pandora FMS erledigt eine ganze Reihe von Überwachungsaufgaben von einer einzigen Konsole aus - Netzwerke, Server, Anwendungen, Protokolle, sogar einige Prüfungen der Benutzerfreundlichkeit und Fernsteuerungsfunktionen. Teams, die sowohl Hardware der alten Schule als auch neuere Cloud-Geräte im Auge behalten wollen, ohne zwischen fünf verschiedenen Tools wechseln zu müssen, landen manchmal hier. Der Agent funktioniert auf so ziemlich jedem Betriebssystem, das Sie sich vorstellen können, und es gibt auch eine Unternehmensversion, wenn Sie offiziellen Support oder zusätzliche Module benötigen.
Es handelt sich um eine dieser Plattformen, die schon vor Jahren eingeführt wurde und im Laufe der Zeit immer weiter ergänzt wurde, so dass man am Ende Dinge wie Inventarisierung, Ticketing und Satellitenserver für entfernte Standorte im selben Paket hat. Einige Unternehmen nutzen die Open-Source-Community-Edition, andere zahlen für das volle Paket mit ausgefallenen Berichten und 24/7-Hilfe.
Wichtigste Highlights:
- Umfasst Netzwerke, Server, Anwendungen und die Erfassung von Protokollen
- Agent unterstützt Windows, Linux, Unix, Mainframes und mehr
- Inklusive Fernsteuerung und Inventarisierungsfunktionen
- Satellitenserver zur Überwachung entfernter Standorte
- Open-Source-Community-Version und kostenpflichtige Unternehmensversionen
Informationen zu Kontakt und sozialen Medien:
- Website: pandorafms.com
- Facebook: www.facebook.com/pandorafms
- Twitter: x.com/pandorafms
- LinkedIn: www.linkedin.com/company/pandora-pfms
- App Store: apps.apple.com/ru/app/pandora-fms
- Google Play: play.google.com/store/apps/pandorafmsmobile
- Anschrift: C/ José Echegaray 8, Alvia, Edificio I, planta 2, Oficina 12. 28232 Las Rozas de Madrid, Madrid, España
- Telefon: +34 91 559 72 22
Einpacken
Letztendlich gibt es keinen einzigen Gewinner, der auf magische Weise zu jedem Team passt. Netdata bietet einen sofortigen, unkomplizierten Überblick über eine Maschine, aber sobald Sie mehr als eine Handvoll Boxen haben oder echte Warnmeldungen, eine Speicherung, die Ihre Festplatte nicht auffrisst, oder Dashboards benötigen, die Ihnen nicht die Augen bluten lassen, müssen Sie sich nach etwas anderem umsehen.
Manche Leute entscheiden sich für die großen All-in-One-Plattformen, weil sie es leid sind, fünf verschiedene Tools zu verwenden, und einfach alles an einem Ort haben wollen. Andere halten sich an den leichtgewichtigen Metriksammler plus eine separate Visualisierungsschicht, weil diese Kombination genau so skaliert, wie sie es im Containerland brauchen. Und dann gibt es noch die Leute, die schließlich das Handtuch werfen und sich für eine der kostenpflichtigen SaaS-Optionen entscheiden, weil es schnell keinen Spaß mehr macht, um Mitternacht angepiept zu werden.
Die Wahrheit ist, dass eine lächerliche Anzahl von Setups, die ich gesehen habe, eigentlich Hybride sind, vielleicht eines davon für die Infrastruktur, ein anderes für Traces und Logs, und etwas oben drauf, nur damit die Graphen anständig aussehen. Und das ist völlig in Ordnung. Die Überwachung ist immer ein wenig chaotisch, weil Ihre Infrastruktur chaotisch ist.
Nimm also das, was dich heute am meisten stört. Sie können den Rest später anbauen oder austauschen, wenn der nächste Schmerz auftaucht. Lassen Sie sich nur nicht von der Jagd nach dem “perfekten” Stack einwickeln, denn gut genug und stabil schlägt theoretisch jedes Mal perfekt. Ihr Bereitschaftsdienst wird es Ihnen danken.


