聊聊运维这件事

December 29, 2014

说起运维, 会联想到的是什么? * 没有技术含量 * 入门不错的选择 * 随时待命 * 通宵加班 * 枯燥乏味的重复工作.

这些都没错,也是运维会遇到的事情, 可能真实的情况比你想到的还要糟糕, 一下这幅图其实才是真正的运维:

{{/static/Screenshots/172015nq55cqmq0a5x55dh.jpg}}

不开玩笑了

可能运维是 IT 里地位相对低下的工种了, 比不上牛逼的开发, 更比不上高大上的架构.

运维就是: * 如果不出事, 那么你就是个透明人, 也没你什么事情, 但是也没你什么功劳. * 如果出了事情, 那么都是你的错, 什么时候能恢复, 什么时候能解决. 解决了? 好吧, 看在你很努力解决的份上, 就不追究你的责任了, 注意下次别再出问题.

就是那么的苦逼.

可是你以为运维简单? 看看有多简单吧, 你需要掌握熟悉以下技能: * 熟悉了解各类操作系统: widnows 各种版本, linux 各种发行版, AIX 各种版本, HP UNIX 各种版本, * 熟悉了解各种中间件的安装部署: tuxedo, weblogic, websphere; 各种依赖 jdk * 各种数据库的安装部署调试维护优化, 也是就要兼职 DBA, 数据库从 oracle db 到 postgresql 到 mysql 都有可能 * 能够处理围绕主机的各种奇怪的问题, 从硬件损坏, 到性能瓶颈, 再到网线松了,乃至需要虎背熊腰扛机器 * 主机资源的规划设计, 维护管理. * 能够排查定位程序的各种奇怪的 bug, 囊括了从程序内存泄露, 到性能不佳

如果你依然觉得很简单, 那么把你维护的主机, 管理的应用, 乘上 10 到 100 , 看着 ssh 列表里面一屏都显示不下的主机, 你还觉得简单么?

如果一台机器运行了10个核心进程, 那么你就有了 1000 个嗷嗷待哺的大爷等着你去伺候, 一旦哪个大爷撂挑子不干了, 那么麻烦就来了.

这时候你发现即便你每天上班第一件事情烧香跪拜也不管用了.

而且无论你是陪媳妇逛街,还是第一次相亲,还是刚在酒吧和一个美女眉来眼去勾搭上了, 接到了出问题的电话, 你都得狂奔到有3g 信号的地方开始 ssh.

没事, 只要找到了问题, 就可以理直气壮的甩给那些高大上的开发和架构去解决了.

但是这样的事情频繁的发生, 偏偏每次都没有办法抓到罪魁祸首, 真正挂死的时候, 可能你也没法 ssh 进去查看, 等你进去的时候已经销声匿迹了.

但是就像在打地道战, 只是这时候的你变成了永远逮不到地鼠的小鬼子.

top 再可爱, 我也不能抛下女朋友, 不眨眼的陪着你.

, 于是你深深的感受到了, 皇上看着后宫三千佳丽, 老农提着锄头看着三千亩良田, 无力耕耘的哀叹.

于是你想到了提升工具, 没错! 上监控来帮助我找问题!

监控是多学科交叉非常有深度的课题. 嗯? 你不同意我的说法?

好吧这个事情上的监控工具不是太少而是太多了, 商业的, 免费开源的, 应有尽有.

bmc 还是 Nagios 或者 Zabbix

无一列外的都以灵活强大, 功能强劲而著称, 有插件, 有外挂, 甚至你可以自己写脚本来监控任何你想要监控的东西.

同时, 无一列外的, 部署安装都是如此的繁琐复杂, 没有哪个是好上手的, 似乎碰到了山一样高的学习曲线, 经过漫长的学习几个月, 一年?

你接触到了各种奇怪艰深的缩写名词, SNMP ITIL: Service Strategy(SS) Service Transition(ST) Service Operation(SO) Continual Service Improvement (CSI)

折腾得自己疲惫不堪, 终于艰难的将监控部署起来了, 看着花花绿绿, 复杂艰深, 完全看不懂的表格数据动起来了, 好有成就感.

找到银弹了么? 大牛下了结论了. * 某天你发现监控 agent 抢占的资源比你要伺候的大爷还多, 从而导致问题的时候 * 当你视图找到罪魁祸首, 而被复杂艰深难懂的数据和图标砸晕的时候 * 当你半夜4点, 被不靠谱的告警叫起来撒尿的时候

为了解决一个复杂的问题, 一群聪明人折腾了一个复杂的系统, 将复杂问题变得更为复杂的时候. 似乎从一个坑里艰难的试图爬出来的时候, 又掉到了一个更深更大的坑里.

不如我们回归本源, 你就是个地主, 一台台主机如同你的一亩亩良田, 一个个进程如同租户一样辛勤的劳作.


comments powered by Disqus