我们不是来竞争的,我们是来清场的

在某客户机房意外断电事故中,沃趣科技QData Infinite成功保障客户业务不受意外故障的影响,真正做到让客户的业务永续。

01.万物皆有裂缝,那是光照进来的地方

如果没有互联网载体以及网速的变化,就没有 TMD 这样互联网时代的新兴产物。
「 TMD,T 指头条(即今日头条)、M 指美团、D 是滴滴 」

假如没有 AI 算法与物的连接,就不能打破碎片化、同质化存量市场的增长瓶颈。如滴滴通过 AI 配对,把 2000 多万出租车司机和 3 亿多乘客免费连接和免费配对。

倘若没有「 双活容灾 」技术的诞生,金融、能源、新生代互联网等行业,只有被动面对非计划停机所造成的严重经济损失和不友好的终端用户体验,而导致客户流失。

「 双活 」的本质是,数据零丢失,业务零中断,是对业务连续性有极限追求的。

6月18日,这天对于大部分人来说是欢呼雀跃的一天,年中大促,种草的好多宝贝又可以肆意买买买了。

但对于沃趣科技QData Infinite双活产品团队的同学们来说,这一天的心情犹如过山车般,从紧张到煎熬,再到欣慰兴奋,简直是刺激到感动。

这一系列复杂的心情变化,源自于 A 电力客户波分设备的机房意外断电,从而导致两个数据中心之间的通讯网络整体瘫痪。该客户使用 QData Infinite 双活平台承载着他们最为核心的营销系统,拥有上千万用电户,近 30T 的数据量。

非计划的停机故障对于金融行业的核心在线业务,是致命的,电力营销系统也不例外。

02.事件回顾

6月18日,下午14:32分。

沃趣科技QData Infinite产品线的小伙伴们接收到客户数据库双活系统发出的告警短信,而且是一封接一封的狂轰乱炸。

在客户现场的沃趣科技实施专家李江北告知 :
「 客户的波分设备所在的机房发生了断电故障,两个数据中心的网络通信全部中断了 」
「 无法连接堡垒机,不能登陆双活管理平台观察服务器状态 」

由于现场的气氛紧张,各作业部门都在紧急的排查问题所在,江北同学的只言片语,传递的信息足够有限。此时,在沃趣科技杭州总部的双活产品线团队与客户一样担忧业务的是否中断了,发生故障的那一刻,所有人都无法登陆内部系统查看状态。只能通过短信告警信息去分析。

沃趣科技临时组成了紧急的故障应急小组,成员由杭州总部QData Infinite产品线团队与现场的实施专家共同组成,开始准备在网络修复后对双活集群进行恢复。

「 通过短信告警中的信息显示,A 数据中心的数据库集群实例是正常运行的,B 数据中心的已经停止服务,说明仲裁结果已经生效。」

此时,客户已经顾不得其他,赶紧修复故障电源,恢复网络通信,并联系业务方了解业务的运行情况。

「 业务没有任何影响,运行很正常,也没有任何压力。」

到此,大家紧绷的心弦稍微放松了些,业务没有任何影响,双活平台立功了! 这种幸福来得太快,上线不久就立竿见影的发挥了双活的最大价值,保障了客户业务零中断。

客户经过紧张的 15 分钟,进行电源故障修复与网络恢复,应急小组成员们第一时间登陆到双活的智能管理平台,通过「 双活智能恢复 」功能,一键恢复双活集群系统。

大家紧绷的心弦终于松懈,内心的疲惫感来得很猛烈,幸福感也如决堤的洪水般,那种感觉,像极了“爱情”。

耗时 9 分钟,恢复了从存储、仲裁、数据库集群等多个层面的服务,恢复过程对整个应用业务无任何影响。剩下的就是数据库自己做数据的重平衡,耗时 13 分钟。

双活智能管理平台,事件日志中显示,时间 14:32:11 ,A数据中心获得了仲裁权,双活数据库正常提供服务。如下图所示:

两个数据中心的网络中断到时间,约15分钟,如下图:

客户对应用业务运行情况的反馈:

03.你能出征,但没有鼓声壮行

To B 产品功能,很难有一鸣惊人的时候,尤其是针对保障类的功能。作为功能的创始者,从来都不想它有被使用的时候,希望它能默默的呆在原地,但又期待它大放光彩之时。因为要使用到它,那就是出现了严重故障。

那谁又愿意有大故障发生呢?可是默默无闻的功能,没有经过考验,你在给客户大吹大擂,我的功能多高端,多 NB,谁又会能真的听得进去?

双活系统在本次客户上线不到 20 天,就遇到了如此严重的断电故障,就连客户自身都没有意料到。可是就因为这次的故障,客户才深刻体会到双活的重要性,对沃趣科技的双活产品,有了更深的认识。不仅仅是做到真正的双活,沃趣科技对故障的恢复也做到极致的简便易操作。

「 双活智能恢复 」功能,是沃趣科技双活产品在高度产品化后,通过产品标准以及精准的算法衍生而来。

过去十年,诞生了以 EMC VPLEX 为代表的网关双活,后来又有各个大厂推出存储双活,可他们都没有做到如我们这样,在没有任何人指导的情况下,没有各种复杂的运维命令,客户只通过一个按钮,就自行恢复了双活数据库平台,并且是恢复到数据库这样的粒度。

04.工匠精神

沃趣科技拥有着各个行业中一流的客户,就是这些可爱的客户。

对我们的信赖,很朴实;

对我们的成长,很关注;

对我们的产品,很热情。

我们一直谨记不做一个功能堆积的产品,因为功能没有生命力,没有从根本上解决任何问题,功能堆积之后,还是夜以继日的在打补丁。狼吃了羊之后,我们不能只是把羊圈的窟窿补上,应该想一个如何防住狼的方案。只有把功能放在具体场景下,考虑了特定的用户群体,功能才有了产品的生命力。

这就是沃趣科技的”工匠精神“。

发表评论

电子邮件地址不会被公开。 必填项已用*标注