Ruby应用程序的云原生监控

2 年 ago

文, 翔

2 minutes

什么是云原生？

https://github.com/cncf/toc/blob/master/DEFINITION.md

Resilient, Manageable, and Observable
たくさんのアプリケーションを動かすことへの問題、はパブリッククラウドや Docker や Kubernetes がかなり解決してくれた
それらをいい感じに協調させたり、問題が起きた時に正しく対処を行えるかどうかに大きな課題があるのが現在

为什么采用云原生技术？（以Quipper为例）

B2C/B2B, 小中高, 国内/グローバル, そして新規事業

サービスがたくさん増えて、複雑なエコシステムを形成しようとしている

Microservices

複数のクラスタ、環境上に、様々なプロダクト、アプリケーション

一貫した方法で Observability を提供したい

SRE がボトルネックにならず、開発チームが自律的かつ高速にプロダクト開発を回せるようにしたい

セルフサービス化の流れ
Observability は大事だけど、そればかりに時間を取られては本末転倒

可观察性的三个支柱

https://www.oreilly.com/library/view/distributed-systems-observability/9781492033431/ch04.html

Event Logs

Quipper では GCP の Stackdriver Logging を使っている (これは超絶便利！！)

Metrics

Quipper では主に Datadog を使っている
今日はこれの話

Tracing

Jaeger 試したりしているけどまだまだ活用できてない
そもそも社内的にまだそんなに欲されている状況でもない
とはいえ必要になるのも時間の問題なので今日の kawasy さんの発表楽しみです！！！

为Datadog收集Ruby指标

Prometheus? Exporter?

普罗米修斯

そこで Exporter

Prometheus导出器

Datadog は Prometheus Exporter からのメトリクス収集もできる

# HELP ruby_rss Total RSS used by process.
# TYPE ruby_rss gauge
ruby_rss{type="master",pid="1",pod_name="api-6bcf6c8554-jntdq"} 390942720
ruby_rss{pod_name="api-6bcf6c8554-jntdq",type="web",pid="45"} 346877952
ruby_rss{pod_name="api-6bcf6c8554-jntdq",type="web",pid="42"} 347594752
ruby_rss{pod_name="api-6bcf6c8554-jntdq",type="web",pid="39"} 350285824
ruby_rss{pod_name="api-6bcf6c8554-jntdq",type="web",pid="50"} 347901952

# HELP ruby_unicorn_workers_total Number of unicorn workers.
# TYPE ruby_unicorn_workers_total gauge
ruby_unicorn_workers_total{pod_name="api-6bcf6c8554-jntdq"} 4

# HELP ruby_unicorn_active_workers_total Number of active unicorn workers
# TYPE ruby_unicorn_active_workers_total gauge
ruby_unicorn_active_workers_total{pod_name="api-6bcf6c8554-jntdq"} 0

Datadog 和 Kubernetes

コピペでメトリクスの収集が行われるようになるので簡単
サービス作成時のテンプレート的なやつに含めて自動化とかもできそう

Kubernetesにデプロイしたアプリケーションのメトリクスを自動収集する

注解

metadata:
  annotations:
    ad.datadoghq.com/api.check_names: |
      ["prometheus"]
    ad.datadoghq.com/api.init_configs: |
      [{}]
    ad.datadoghq.com/api.instances: |
      [
        {
          "prometheus_url": "http://%%host%%:9394/metrics",
          "namespace": "prometheus_checks",
          "metrics": ["*"]
        }
      ]

今天的成果

Ruby 测验：有什么问题呢？

原始代码

    def worker_process_count
      # ...

      # find all processes whose parent is the unicorn master
      # but we're actually only interested in the number of processes (= lines of output)
      result = `ps --no-header -o pid --ppid #{pid}`
      result.lines.count
    end