快速追踪Linux服务器故障解决方案

微信专员 4年前 (2020-07-22) Linux知识 51 0
TAGS:
广东服务器大促销查看详情

作为网站站长,和 Linux系统 打交道,在服务器上分析系统性能情况,我觉得是每一个后端工程师都无法避开的事情。


无论你是开发还是运维,可能都经历过这样的场景:

流量高峰期,服务器 CPU 使用率过高报警,你登录 Linux 上去 top 完之后,却不知道怎么进一步定位,到底是系统 CPU 资源太少,还是程序并发部分写得有问题?


系统并没有跑什么吃内存的程序,但在敲完 free 命令之后,却发现已经没什么内存了,到底是哪里占用了内存?为什么?


一大早就收到 Zabbix 告警,你发现某台存放监控数据的数据库主机 CPU 的 I/O Wait 较高,该怎么办?


Linux 性能问题一直是程序员头上的“紧箍咒”,大多数时候,我们只能看到“症状”,却不知道从哪儿下手排查和解决。就算看了很多资料和书籍,一旦涉及到具体问题,还是会一脸懵逼。


在我看来,与其上来就去啃厚厚的原理书,把自己的信心压垮,不如带着问题,对症下药。说说我的经验,有 3 点我觉得比较重要:

先掌握性能优化的思路和方法,尝试大量 Linux 性能工具;

把性能问题跟系统原理关联起来,特别是把应用程序、库函数、系统调用、内核和硬件等不同的层级贯穿起来;

最终从学习到输出,从实践中总结经验。

这其中,一开始就劝退你的,可能就是 Linux 性能工具的使用,它除了要考虑性能指标的目的外,还要结合待分析的环境来综合选取。

虽说咱有布伦丹·格雷格(Brendan Gregg)大师整理的性能工具图谱,相信你也多少参考过,但其实它还不够具体,使用时还要去查找每个工具的手册,对比分析做出选择。

快速追踪Linux服务器故障解决方案-第1张图片-新之洲IDC资讯

所以每次用的时候,我就在想,有没有更好的方法来理解这些工具呢?刚刚开始研究的时候,可没少在网上找资料,但总是零散、不成体系,最终我找到了倪朋飞《Linux 性能优化实战》专栏中,总结的几个性能工具图。


他根据「性能指标」的不同,将工具划分为 CPU、内存、磁盘 I / O 及网络,4 大类型,总算是一次性让我把性能工具搞明白了。

快速追踪Linux服务器故障解决方案-第2张图片-新之洲IDC资讯

快速追踪Linux服务器故障解决方案-第3张图片-新之洲IDC资讯

文章来源:极客时间 InfoQ

版权声明:部分文章内容、图片来源于互联网获取,如有侵权请联系删除,发送邮件:server889#qq.com 请将#改为@,我们将第一时间审核处理!

相关推荐

网友评论

  • (*)

最新评论