DevOps的三板斧

最近电视上正在热播《隋唐英雄》,虽然我没有观看,但田连元老先生的评书《隋唐演义》却让我记忆犹新。特别是其中程咬金的三板斧——拍蒜瓣、戳脚指甲盖、撒胡椒面——每次听来都让人忍俊不禁。这些看似荒谬的招数在实战中却常常能出其不意,取得胜利,这说明简单实用才是制胜的法宝。在当今倡导devops的时代,我们这些程序员也应该掌握一些运维技能以求立足。下面我将结合实际案例,分享我在日常工作中常用的三板斧。

第一板斧:AWK

当Web服务器的负载突然飙升时,我们可能会怀疑是访问量激增所致。如何验证这一猜测呢?如果有监控系统,这自然不是难题,但如果没有监控,或者监控无法实时显示数据,该怎么办?

假设日志已经通过logrotate按天切分,其内容如下:

1.2.3.4 - - [01/Jan/2013:00:01:01 +0800] "GET /path HTTP/1.1" ...

利用AWK,我们可以轻松计算一天中每分钟的访问量:

shell> awk -F: '    {        count[$2":"$3]++    }    END {        for (minute in count) print minute, count[minute]    }' /path/to/log | sort > count.log

生成的count.log文件中的部分数据如下,结果一目了然:

18:55 1445018:56 1492618:57 1564518:58 1667818:59 1903219:00 2913419:01 3466519:02 3555819:03 3554519:04 3582919:05 35608

如果需要按秒统计,方法类似,这里就不赘述了。

第二板斧:Strace

当程序运行缓慢时,我们如何确定瓶颈所在?此时可以使用strace的「-T」选项,但需要注意,strace的结果输出到标准错误,需要重定向到标准输出。

让我们过滤某个php进程中操作时间超过0.001秒的操作:

shell> strace -T -p <pid> 2>&1 | awk 'substr($NF, 2, 8) > 0.001'lstat64("/var/www", {...}) = 0 </pid>

如果问题简单,这通常就足够了。但如果问题复杂,仅过滤耗时操作是不够的,最好能看到完整的上下文。AWK在这方面的代码会变得复杂,但我们还有grep,它的「A」和「B」选项可以方便地保存上下文,同时利用正则表达式可以模拟时间大小判断。

让我们过滤某个PHP进程中操作时间超过0.001秒的操作,并附上前后两行的上下文:

shell> strace -T -p <pid> 2>&1 |        grep -E -A 2 -B 2 'lstat64("/var", {...}) = 0 lstat64("/var/www", {...}) = 0 lstat64("/var/www/script", {...}) = 0 lstat64("/var/www/script/test.php", {...}) = 0 </pid>

补充说明:本例中使用的是PHP程序,出现大量lstat64操作是因为PHP配置中没有设置合适的realpath_cache_size,具体细节请自行查阅相关资料。

第三板斧:Gnuplot

数字总是枯燥的,图形则更加直观。Gnuplot在绘图方面非常简便,以文章开头统计访问量的例子为数据源,代码如下:

#!/usr/bin/gnuplotset terminal png size 500,400set gridset xdata timeset timefmt "%H:%M"set format x '%H'set xlabel "Time"set ylabel "Count"set output "count.png"plot "count.log" using 1:2 with line notitle

生成的图形比数字更加直观:

DevOps的三板斧Gnuplot绘图

有了Gnuplot,我们甚至可以通过CRON等方式构建一个简单的图形化监控系统。

DevOps代表着未来软件开发的方向,它倡导小团队,强调单兵作战能力。在这样的环境中,程序员作为团队的一员,不能仅限于开发角色,还必须在运维方面武装自己。希望大家都能找到自己的三板斧,当然,我们不是古惑仔,而是程咬金。

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享