1 回答

TA贡献1860条经验 获得超9个赞
嗯,这是一个复杂的话题,所以不可能有一个明确的答案。
实际上,您所接近的在生产设置中被称为“指标收集”或“遥测”。
在大多数情况下,指标的收集使用抽样方法:即收集感兴趣的系统状态的快照并将其发送到某处。“某处”通常是一些允许在某处保存度量值的系统,并且通常还提供各种分析它们的方法。
在最简单的情况下,分析是通过在某种 UI 中盯着从收集的数据中绘制的图表来完成的。更复杂的情况包括当某个指标的值高于(或低于)某个阈值时发出警报。
单个指标是特定类型的某个命名值。
这些指标可以从不同的数据源产生。以 Go 编写的程序运行的相当常见的设置的典型来源包括:
Go 运行时本身。
这包括诸如 goroutine 的数量和垃圾收集统计信息之类的东西——由于显而易见的原因,这些测量值不可能超出正在运行的 Go 程序。
操作系统提供的关于执行程序的正在运行的进程的测量值。
这包括在内核的用户和系统上下文中花费的 CPU 时间、内存消耗(如操作系统所见)、打开的文件(和套接字)描述符的数量、CPU 上下文切换的数量、磁盘 I/O 统计信息等等。
由运行包含程序的容器的容器化软件提供的测量值。
在 Linux 上,这通常由子系统提供,该
cgroup
子系统主要负责控制对进程层次结构施加的资源限制。
如何准确地从这些数据源转换数据是一个悬而未决的问题(这就是它不适合 SO 格式的原因)。
例如,要收集 Go 运行时统计信息,您可以使用expvar
@Adrian 建议的机制,并定期轮询它提供的 HTTP 端点以获取数据。
或者你可以在你的程序中运行一个内部 goroutine,它会定期从运行时获取这些数据并将其推送到某个地方。
再次,可以以不同的方式对操作系统级进程相关数据进行采样。比如说,您可以使用类似的工具从您的程序中收集它们github.com/shirou/gopsutil/process
并将它们与从运行时统计中收集的指标一起推送,或者您可以使用无数工具中的一个或多个从外部收集这些数据。
(我所知道的收集操作系统级性能数据的最低技术但易于使用的方法是使用pidstat
、iotop
、atop
等工具cpustat
)。
保存和分析收集的数据的问题再次公开。
首先,它可能就像将所有内容转储到结构化文件中一样简单——可能在每条记录上都有一个时间戳——然后用你喜欢的任何东西处理它——例如,pyplot
RRD-tool 或 R 或……随便什么。
或者你可以从一开始就拿起一把大枪,然后将你的指标发送到graphite、graphana、zabbix或icinga或任何目前处于臀部曲线顶部的东西。
- 1 回答
- 0 关注
- 150 浏览
添加回答
举报