Archive for December 2009

小概率事件毕竟不是完全没可能

昨天机房搬迁第二阶段,本来以为会挺轻松,因为基本上没涉及关键业务的服务器,所以时间窗口很宽裕。原本估计单台机器离线不超过30分钟,整个过程就是关机拆线、下架,搬到新机房再重装导轨、上架。最后接上电源网络确认通信和服务正常就OK了。7台机器用6个小时是绰绰有余,中间应该还有点coffee time。。。

结果证明我是过于乐观了点。。。开工没多久就发现问题,有几条导轨因为长年承受重量有点变形了。结果重新装的时候很困难,总觉的不太稳,不过最后把机器装上去再上紧螺丝倒是没看出什么问题(随便摔下来一台少说几千镑>_<)。但这都只是小case。。。

一台有点年头的戴尔2950,正常程序关机、断电、一切OK。被两个人小心翼翼的抬到只隔十几米的新机房,重新上架,插上电源,结果机器不启动,市电输入灯不亮。拔了插头、换了电源线,还是不亮。。。地下室真见鬼了么?!怎么想都没理由,两路独立的电源怎么可能15分钟前还是好好的,现在就一起坏了?!怀疑主板烧了,从另外一台机器临时拆下来一个电源装上却可以正常启动,证明确实是那两个电源同时报废。但是只靠一个电源运行是个隐患,最后决定把有问题的机关掉,保证终端服务器有双电源更重要。发现最近戴尔总跟我们过不去,比如前两周买机器,送来的配置不对,他们还坚持说是我们的订单下错。。。

后边的一台1950更神奇。开机时候一切正常,过了15分钟突然发现网卡的2号端口速率从千兆降到了百兆。换了一条网线也还是一样。把交换机和网卡都强制为千兆全双工结果却断网,无奈只好去KVM把设置改回来。试着重启,结果系统干脆显示没插网线!又是一番折腾,各种可能都被排除还是找不出原因。(之前也出过这种事,一台Sun X4150关机再重开,结果里面的那块4口网卡就彻底罢工了。)“印度戴尔”方面说新网卡最快也要4个小时以后才能送到,而且时间不能保证(TNND,又是戴尔。。。)。当时一度考虑去maplins随便买块垃圾网卡先装上,等新卡送到了再说。几个人正盯着机器发呆,同事突然绕到机柜后面捅咕了一会,回来在配线板上换了一个口,结果机器立刻显示1000Mbps/full-duplex。。。在场的人集体晕倒,再仔细一看发现坏了的那个端口刚好是13号>_<! 

结论一就是小概率事件终究还是有可能发生,飞机都会双发失效何况电脑呢。RAID1、双网卡、双电源+双路UPS+双路市电输入——结果还是悲剧了。。。

结论二就是老外觉得13是不吉利的数字看来是有实践基础的>_<b