| 方's profile远方PhotosBlogLists | Help |
|
October 20 我的24小时以下事件发生在8月7日21:00到8月8日21:00 事件概述:7日晚进行某局点的大版本升级,紧张的升级到第二天凌晨6点半结束,回到宿舍已经是7点,9点接到通知网络出现问题,于是在宿舍进行简单分析以后马上赶往现场,现场定位分析 配合总部采集信息 指导下午4点问题完全排除,观察1个半小时后返回宿舍,18点半,还在路上的时候接到通知问题出现反复 于是一边联系总部,一边马上返回现场进行处理,经过排查发现是新增的数据有问题,删除以后问题解决,再次反回宿舍,抵达时候刚好是21:00 返回的路上,我想起了看过的一部电影 反恐24小时,感觉自己虽然不是进行反恐,但是解决现网问题的紧张和刺激还有有一些相似 几个类比: CTU---深圳总部 杰克---我 杰克去现场的时候跳上了他的福特SUV ---- 我去现场的时候跳上了比福特SUV还要宽敞的公交大巴 杰克在去现场的途中接电话说 on my way ---- 我在去现场的途中接电话也告诉对方 on my way 遇到问题杰克先告诉CTU:need backup --- 现场出现事故我也是先电话到总部说需要支持,先组织人力,详细信息随后发出 杰克告诉CTU把XX信息发到他的PDA上---我告诉总部把XX信息发到我的email里 恐怖分子说X点之前如果不满足他们的条件他们就引爆炸弹---客户说如果X点之前不解决问题就必须倒回 恐怖分子可能让美国人民付出血的代价,晚一分钟代价就会加大一份 --- 客户可以让我们公司付出钱的代价,晚一分钟代价就会加大一份 杰克给美国政府卖命--- 我给我们公司打工 反馈24小时里面24小时内杰克没吃过东西 --- 我这24小时内也是水米未沾牙 杰克最后成为英雄,但是最后也会被国家给出卖 --- 我还是我,只是完成了应该的任务,最后也可能被公司解职 。。。。。。 21:00--22:00 Jason,我还有小N还在宿舍,吃了半个西瓜,洗了个冷水澡,大家聊着天,但是心理都是有顾虑的,我们知道今晚的升级将是一次大的考验,上次已经出问题一次了这次决不能有闪失,不然以后真的没法在这个圈子了。21:30,我们到楼下等本地员工来接,她很准时,很早就到了路边,3个人一起抵达现场。到了现场还没进门的时候,Jason说大家买点果汁,巧克力什么的以便晚上进行体力补充,本地员工很严肃的答复:time table is very strong,we do not have time to think others 。 这次操作从一开始就笼罩在这样的紧张的气氛之中了 22:00--23:00 进入现场开始操作,按照我事先做好的方案,一步一步进行,也算按部就班,同时和总部的人进行电话联络,保持前后方的信息传递通畅。23点按照预订计划完成了数据备份以及应急工作站接管,都算顺利,总部对此次升级也是异常重视,办公室值班的兄弟够踢一场足球赛了 23:00--00:00 按照计划进行BAM的升级,一切都比较顺利,但是大家知道这个都不算考验,真正的考验还没有到来 00:00--01:00 进行计费服务器的升级,由于准备充分而且时间充裕,也顺利完成了, 然后就等待1点钟进行host的加载和升级 01:00--02:00 今晚的第一个关键时刻,大概半小时时间,host的升级和加载完成,之间有个别单板启动有问题但也都顺利解决, 然后就开始更让人担心的业务验证。由于有了上一次的前车之鉴,这次还是不敢马虎, 02:00--03:00 第一个问题出现了,小交换机业务有问题,现场先是一惊但马上镇定下来,毕竟还有时间,一边分析一边反馈给总部,总部马上调动人力全力公关,经过多方的努力,发现是脚本有问题,进行修改以后,问题解决, 03:00--04:00 业务验证继续进行,我们也把监听服务器和另一个计费服务器顺利升级了,但是有一个业务号称NCSI的无法实现,又开始了新一轮的公关。。。 04:00--05:00 业务测试基本完成了,那个ncsi的问题还需要再进一步确认,整个操作也算是有惊无险的过来了,前后方都松了一口气。 06:00---07:00 进行收尾工作,反馈新的信息给总部分析系统状态,同时返回宿舍进行短暂休息, 刚到宿舍,3个人松了一口气,洗了个脸倒头就睡了 0700---0900 难得的2个小时睡梦中。。。 09:00--10:00 9点左右接到电话,现场出现问题,虽然有了暂时的解决方法,但是对客户的影响还是很大,于是一边联系总部协助定位,一边打开电脑用GPRS把信息收下来,经过初步判断,问题出在对端,但是由于对端设备没有进行过操作,这个可能性也是比较小,估计是信息中有一些障眼法,没法一次看到问题本质,与此同时 总部也在进行着分析,, 10:00---11:00 由于问题一时没有结果,我马上收拾了一下 跳上了公车,晃晃悠悠的赶往机房,路上接了总部的电话,向他们介绍了一下背景,又接到现场的电话,直接告诉了他们:on my way,, 11:00--12:00 现场虽然避免了业务的中断,但是还是需要尽快解决问题,客户也是象热锅上的蚂蚁,不停的询问我们进展。我在现场一边分析这已有的信息,一边按照总部的要求进行反馈,总部给出了一些方法,每次得到方法以后都是一阵兴奋,但是测试之后发现对于这样棘手的问题于事无补,时间在一分一秒的流失,心在一分一分的上提 12:00--13:00 怀疑问题出现在信令部分,进行了整个系统信令部分的排查,却是还没有结果,已经有一些声音要求到回了,业务高峰到回版本,无异于自杀啊,可是不倒回却对于这个难题还没有有效的方法彻底排除。总部的气氛相信也是十分紧张,很多兄弟是从昨晚开始一直熬到现在的 13:00--14:00 客户的高层已经聚集到现场,询问进展,答复当然是不另他们满意的,我们的人也询问进展,还好是Jason久经考验,对外表现了十足的信心和把握,为我们解决问题争取了下一步的时间,我们必定会短时间内解决该问题, 于是经过现场与客户紧急开会讨论,达成了初步一致:14:30分之前务必解决问题。 我和总部的精神再一次绷紧 14:00--15:00 在预订的时间内没有解决,但是已经有了一点线索,正在紧跟这个线索,相信很快会有突破。此时谈判成了重要的手段,经过Jason和几个本地员工的努力,客户同意把时间放宽到15:30,因为他们也知道现在到回意味着更大的冒险,这次谈判给解决问题争取了宝贵的时间,也是给大家下了最后通牒。如果不解决,其后果无异于恐怖分子引爆了炸弹 15:00--16:00 千里之堤毁于蚁穴,这话不错,这么大的问题的起因竟然是一个不起眼的参数。 经过定位,终于找到原因,现场修改以后,业务全面恢复正常, 悬着的心啊 终于放下了, 但是整个人似乎还没有从刚才紧张的状态中苏醒过来 16:00--17:00 继续跟踪问题,结果反复测试,确认问题解决了,看看北京时间,已经是快要8点了,那些两天一夜没合眼的兄弟,可以休息一下了 17:00--18:00 反馈现场消息给总部以后,拍拍身上的灰尘 抖抖疲惫的精神,返回, 18:00 -- 19:00 坐上公交车,向家的方向走。结果公交车却临时换了方向,导致我们得下来步行回去,18:30,接到现场值守员工的电话,问题出现反复,,, 刚刚放松了一点的精神马上就紧张起来了,一边在路口拦出租车,一边联系总部,此时深圳已经近21点了。电话接通,自报家门以后,告诉说问题出现反复,需要支持 请马上组织人力,我这边立即到现场, 总部答复:明白 19:00--20:00 问题是一样的,但是原因是不同的,我到了现场看了操作日志后发现问题,有一条数据修改错误,与客户确认以后,他承认这个数据确实改错了,修正以后,问题恢复, 虚惊了一场, 撤退, 临走时候客户对我们一个劲的thankyou 20:00--21:00 夕阳如血,映红半边天,心情也是彻底的放下来了,我们又一次反回驻地,但愿这次不要再有什么事情了,我脆弱的神经已经经不起再一次的考验了,这时候才回想起来 一天一夜光顾着忙,竟然没吃任何东西,竟然不觉得饿啊,这就是精神的力量。 一路无话,睡个好觉吧,但愿今夜有眠,祈祷今夜无(电)话 |
|
|