关于如何设置Datadog Agent 5.1.0新增的监控警报的方法

2 年 ago

逸, 科

1 minute

在先前的帖子中，我用闪烁的方式写了一篇关于新的监视警报UI的文章。现在这个UI适用于所有的Datadog用户，并且英文的文章已经发布在Datadoghq.com的博客上，所以我马上将其翻译成了日文。

介绍可用性监测

2014年12月15日，由Matt Williams撰写

我们刚刚在Datadog Agent 5.1.0中发布了一项重大扩展，称为可用性监控。可用性监控在我们现有的基于指标的监控之上引入了五种新的监控方式。

在Datadog 5.1.0版本中，新增了一个名为”可用性监控”的新功能。”可用性监控”除了基于先前的指标监控警报方法外，还新增了以下5种监控警报方法。（与新的监控选项卡左侧的菜单项相同）

Custom monitors　(カスタム監視)

度量监视器可以以复杂的方式监视应用程序和服务。然而，有时您只希望有一个简单的监视器来知道主机或服务是正常还是异常。这正是可用性监视器能够提供给您的。

使用基于度量标准的监控方法，可以对应用程序和服务进行细致的监控。但有时候，我认为只需使用简单设置的监控警报即可分辨主机或服务的启动和停止。”可用性监测”就是为满足这种要求而设计的监控警报方法。

与基于度量衡的监控器一样，新的监控器由于使用标签而特别适合大规模部署。有了标签，您可以对所有属于相同环境、位于同一数据中心或运行相同AWS AMI的主机应用主机监控。如果您的基础架构是弹性的，就无需重新配置任何东西。Datadog监控器可以实时跟踪变化。

由于这些新的监控警报方法也可以使用标签，因此与以前基于指标的监控警报相同，它非常适用于大规模部署。通过使用标签，可以在同一环境（例如：相同的数据中心，使用相同机器镜像启动的实例等）中的所有主机上，使用一个主机监控配置来进行处理。即使基础设施的组成要素发生变化，也不需要重新配置。Datadog的监控警报能够实时跟踪这些变化。

一个例子：监控Elasticsearch

在Datadog，我们广泛使用Elasticsearch来支持我们的相关引擎。让我们看看如何通过现有的基于指标的监控，使用新的监控功能来有效监控它。

Datadog在广泛运用Elasticsearch作为衍生度量关系的引擎。因此，我们以Elasticsearch为例，结合基于度量的监控报警和新增的监控报警方法，来探讨有效的监控方法。

在这个例子中，我们将使用两台新监视器：主机监视器和集成监视器，以及现有的度量监视器，以获得全面的覆盖范围。

这个例子通过同时使用现有的基于度量的监控和两种新的监控警报方法“主机监控”和“集成监控”，以实现全面监控警报的方法。

同时监控所有的Elasticsearch主机

要同时监控所有Elasticsearch主机，您可以使用新的主机监视器。在此示例中，所有Elasticsearch主机都有一个标签，让您可以跟踪整个集群：name: es-events-data。Datadog会自动为AWS实例打标签，并将Chef角色和Puppet事实转换为标签。此外，您还可以使用基础设施总览界面或我们的API为主机打标签。只要主机被正确标记，您将无需重新配置监视器。

要一起监视Elasticsearch主机，可以使用“host monitor”。在这个例子中，假设Elasticsearch的所有主机都被赋予了一个名为“name:es-events-data”的标签，以便全面掌握集群。在Datadog中，自动给AWS实例打上标签，并给Chef角色和Puppet事实也打上标签。此外，还可以通过API或“基础设施概览”界面给与该主机相关的标签。因此，在适当设置标签的环境中，不需要重新配置监视警报。

每分钟Datadog都会检查是否收到了带有该标签的所有主机的心跳，并如果有任何主机丢失就会触发警报。Datadog甚至可以区分停止上报的主机和在AWS上有意终止的主机。

在Datadog中，每分钟检查带有设置标签的所有主机是否收到了心跳信号，如果有任何一个主机的信号丢失了，将发出警报。Datadog能够区分意图被“terminated”（终止）的主机和需要停止并生成报告的主机，并将其用于警报。

监控定义的其余部分是您已经熟悉的内容：描述所发生的事情，并决定向团队中的谁发送通知。

“Say what’s happening”和”Notify your team”是从旧监视警报设置界面继承的部分，用于设置警报发送的消息和警报通知的目标。

使用集成监控来监测Elasticsearch集群的健康状况。

Elasticsearch是一个分布式数据存储系统：它可以承受一定数量的主机损失，因此基于主机的监视器很有用，但也不够精确。

Elasticsearch是一个分布式的数据存储。因此，即使集群中的某些主机掉线，整个集群仍然可以继续工作。基于主机的监控警报在这方面是有用的，但仅靠这一点可能也会感到不够安心。

Elasticsearch集成监控能够原生地理解Elasticsearch集群健康API，因此您可以轻松地通过标签对整个集群的健康状态进行警报，即使您有多个集群也可以。

基于Elasticsearch的集成监控警报可以直接使用Elasticsearch集群的健康API来收集有关集群状态的信息。因此，可以根据这些健康信息轻松设置警报。

使用度量监视器监控Elasticsearch指标

通过之前的两个监视器，您可以跟踪群集和每个单独节点的健康状态。基于度量标准的监视器可以更加详细地查看Elasticsearch。

根据前两种监控警报方法，有一种方法可以持续了解每个节点和集群的状态。基于指标的监控可以帮助我们更详细地了解Elasticsearch的健康状况。

迁移Elasticsearch分片可能会对集群的运行时性能产生负面影响，因此它们是需要密切注意的一个指标。指标elasticsearch.relocating_shards通过可用区逐个监控，并在任何分片在5分钟内发生迁移时触发警告。

由于重新分配 Elasticsearch 的分片会降低集群的执行性能，因此监控此项指标是值得的。我们将监控“elasticsearch.relocating_shards”指标，按可用区进行监视，如果持续发生超过5分钟的分片重新分配，则触发警报。

了解更多关于显示器的信息

我们已更新我们的API和文档，以更详细地描述可用性监控。我们将在后续的帖子中提供更深入的介绍。请继续关注。

為了詳細解釋”可用性監控”，我們大幅修改了API及其文件。此外，這篇介紹文章的後續還將包括更深入監控警報的內容文章。(敬請期待。)

如果你是Datadog的新手，想要根据你的主机和服务的可用性进行警报，请注册14天免费试用，并亲自试一试。

如果你是第一次听说Datadog，并且想要根据你目前管理的服务和主机的健康状况接收警报的话，你可以注册14天的免费试用，并亲自尝试一下。