在 Prometheus 存储上不应该使用 NFS

2 年 ago

逸, 科

1 minute

这就是全部标题。

考虑到 Prometheus 的配置，在运维方面也觉得将存储设为 NFS 是一个容易想到的选择，并且非常吸引人。

在AWS的情况下，EBS的可用区是固定的，需要提前计算所需容量（虽然可以添加容量）。
但是，对于EFS，可以从所有可用区访问，而且只需根据实际使用量进行计费，不需要考虑所需存储容量，运营非常轻松…！（虽然比EBS贵）。

因此，我們往往會將NFS作為Prometheus環境的儲存方式，但這是行不通的。

然后，关于发生什么，正如此警告所述，可能会发生无法恢复的损坏。

在我不知情的情况下，我在EFS上运营prometheus时经历了这样的事情。之前正常运行的prometheus某一天突然死机了。尽管尝试重新启动，但仍然持续出现相同的错误，最终我放弃了恢复工作并从每天的备份中进行了恢复，以在恢复期间产生了一段空白时间并使其重新运行。

（也许通过删除最新的块再次使其运行也是可能的吗？）

之后，我进行了调查，并得知此类事情不在支持范围之内，所以我安静地将其更改为了EBS结构。

可能会有某种触发条件，但完全不清楚，所以最好放弃NFS而安静下来。虽然在讨论中也多次提到了这个问题，但由于NFS不受支持，所以讨论就此结束了。