运维做什么事儿 07 Dec 2009 10:37 pm
【运维做什么事儿】运维是守江山
打江山难,守江山更难
每个公司都有自己的核心产品,一般也是其主盈利点。为了盈利就需要保持产品的领先地位,就需要对其进行不断的改进,功能上的改进大多以研发(RD)项目的形式存在,而稳定性的改进就要靠运维(OP)。运维是持续化的投入,只要公司不倒闭,就会有运维的事情要做。
RD开发的程序,OP要放到服务器上,使得用户可以使用。直观的问题就是如何快速、自动的完成这个过程,最直接的答案是使用shell等脚本语言,一个具体的例子是:
1. 从X处获取程序Y和配置Z
2. 将其分发到N台机器上
3. 依次重启程序生效
转化为shell后,可能是:
wget ftp://XXXXXXXXXXXXXXXXX file
for host in `cat list`;do scp ;done
ssh host “restart”
我们直接用脚本语言将人的思维步骤展现出来,并力求其可复用,这个就是最初的运维。就这一点能说很多页,我们先看个稍简单些的东西。
人有生老病死,机器和服务亦然。为了及时发现服务异常,就需要OP第二大利器——监控。
需要发现机器死掉,于是有了ping,ssh等探测监控
需要发现资源占用,于是有了sar,vmstat,iostat等性能监控
需要发现安全隐患,于是有了对message等的日志监控
需要发现服务状况,于是有了共享内存、程序日志等状态监控
监控多了不好看,不好分析,于是有了监控视图和环比、同比等经典功能
有的问题,需要根据多种监控的结论,于是有了智能监控
当几乎什么都有了监控的时候,邮件、短信已经多的泛滥
于是为了减少报警,有了报警聚类
既然监控能发现问题,是不是能自己解决问题?就有了故障自处理分支
为了管理很多的故障处理分支,于是有了分层分级模型的流程平台
至此,监控基本成型。我想守江山为什么难大家也有体会了——
1. 你要解决的问题是随着规模扩大,而难度增大的
2. 你要解决的问题是让机器代替人
3. 你要解决的问题是广阔的,不会束缚你的发展,但是你要理清思绪,不然很容易死掉
运维对公司意味着什么?我们来看个图

如果项目失败,我们至多损失一个功能
如果架构失败,我们可能会浪费些钱
如果运维失败,我们的事业就会付之东流
那么,运维的挑战是什么?
1. 高度复杂的服务关联:随着时间的发展,越来越多的服务关系和服务依赖纠结,而OP只能笔记甚至眼睁睁的呼救。这就直接导致了“牵一发而动全身”,没有人敢动是运维差到极致的表现
2. 有限甚至紧迫的时间:运维是功能被用户感知的最后一道关卡,肉到嘴边上,不能吃,这会儿是最难受的。也因为这种难受,任何服务留给运维的时间往往很少,OP要做的是“性价比”。当然,更多的工作应该在平时,用以提高紧迫时候的效率。最厉害的消防员就是让这个地方永远别着火
3. 林立的平台,以及各种平台的问题:为了提高效率,为了减少问题,开发和使用了各种平台,各种平台的藕断丝连,甚至bug都是对OP耐性极限的考验,就像是社会主义初级阶段,要煎熬,要坚定不移,还要推动改进
4. RD/QA等越来越高的期望:运维的事情圈子大,别人的期望越来越高,其实我还是很开心的
好的运维是什么样的?只有两条8个字
1. 可信赖的
2. 有效率的
下期预告:【运维做什么事儿】做运维的人需要会什么
on 04 Feb 2010 at 05:58 1.premier said …
Ждать, имхо
on 11 Mar 2010 at 09:14 2.匿名 said …
…
…
on 12 Mar 2010 at 17:41 3.匿名 said …
…
…
on 14 Mar 2010 at 17:35 4.匿名 said …
…
…
on 15 Mar 2010 at 16:47 5.匿名 said …
…
…
on 16 Mar 2010 at 23:47 6.匿名 said …
…
…
on 17 Mar 2010 at 20:37 7.匿名 said …
…
…
on 19 Mar 2010 at 22:11 8.匿名 said …
…
…
on 20 Mar 2010 at 17:52 9.匿名 said …
…
…
on 23 Mar 2010 at 20:48 10.匿名 said …
…
…
on 24 Mar 2010 at 23:51 11.匿名 said …
…
…
on 25 Mar 2010 at 21:03 12.匿名 said …
…
…
on 26 Mar 2010 at 20:51 13.匿名 said …
…
…