混沌工程实验室丨同创助力金融行业业务连续

近期,工业和信息化部印发了《‘十四五’软件和信息技术服务业发展规划》,明确了软件是信息技术关键载体和产业融合关键纽带,其中软件系统稳定性是促进软件行业高质量发展的基石。《证券期货业科技发展“十四五”规划》中提到的四项原则也着重强调了系统稳定性:“稳字当头、稳中求进”。由此可见,系统稳定性已经成为支撑金融机构转型发展、保障产品和服务质量、提升客户满意度、控制金融风险的重要影响因子。在此背景下,越来越多的企业通过应用混沌工程技术来提高软件系统的稳定性,从而实现韧性架构。金融行业是拥抱、尝试新技术最为积极的行业之一,众多金融领域的客户对混沌工程技术在金融场景下的应用展现出了浓厚的兴趣。

12月7日,由中国信息通信研究院支持、混沌工程实验室主办的“混沌工程技术沙龙——金融行业精品专场”以“线下沙龙+线上直播”的形式成功召开。此次沙龙聚焦金融行业分布式系统稳定性痛点问题,邀请行业技术专家共同探讨混沌工程技术在金融行业内的实践经验及建设成效,为解决金融行业分布式系统的稳定性提供新思路。

(活动现场)

作为实验室成员单位、灾备和业务连续性领域的领军企业,同创参加了此次活动。同创永益技术总监郑阳先生在,以“混沌工程助力金融行业业务连续性管理”为主题做了专题演讲,针对目前混沌工程的挑战与企业业务痛点做了陈述,也与各位老师共同探讨了更多混沌工程针对业务的场景,赢得了现场的广泛赞誉。

以下为CTO郑阳现场演讲部分内容:

我们认为引入了混沌工程之后就可以进行从容的一个应急,在事前的时候可以预测一些故障,也可以通过一些攻防演练的方式去主动发现问题,使得我们的系统更加健壮,在事中的时候也可以快速地定位和解决问题。事后是对故障的影响进行一个分析,还有重建的设计,然后进行一些复盘,还有改进我们整个的过程、流程等等,这是我们认为混沌工程带给BCP的。

其实在真实的故障场景中肯定不是这样的,因为真实的切换场景前面肯定还有很多的环节在,至少有两个环节,第一个是应急响应,另一个是应急处置这方面,包括我们说的指挥调度等等这些环节,其实环节越多的话,它的故障点越多,每个故障点我们的假设的都是90%以上的成功率,你把这些故障点这些成功率乘起来之后,就得到了我们最后的真实的一个成功率,其实成功率只有65%的到85%。

从事件的发生到应急处置,在灾备切换演练里其实是没有得到一个验证的。现阶段目前有一些银行客户在跟同创一起去研究怎么去做极限情况下的切换演练,其实也就是往混沌工程这个方向去思考了。如果是引入了混沌程之后,我们才计划会是什么样子,肯定是从通过混沌工程故障注入这种方式去模拟真实存在的一些故障。

同创业务连续性平台:数字化时代全方位为企业业务提供保驾护航

从软件的角度上考虑,这是同创软件的能力模型,首先是覆盖稳敏双态,第二个是叫平战结合,我们有两个原则覆盖双态和平战结合。覆盖双态的意思就是说我们的所有的能力模块,这些是我们的能力模块,这些能力模块在不同的层次上有不同的诉求,比如像监控告警的话,我们在iaas上就是传统监控,在paas层次上我们叫平台可观测,saas层次我们叫业务可观测,每一个模块其实都在纵向的文笔状态上有不同的诉求。

另外从横向上我们说平战结合平时的话叫防患于未然,战时的话叫然则有备,有备覆盖平时和战时。我们通过业态感知的我们的能力模块,去感知到我们整个的应用拓扑、物理拓扑,从而给我们的业务连续性管理提供一个依据,做BIA营业务影响分析和风险分析的依据。

然后根据我们的RA风险分析的一个结果,生成相应的预案体系,然后到我们的混沌工程平台出场,我们的混沌工程平台可以跟业务跟监控报警很好的一个结合,去一个看监控报警的策略做优化,另外的话是给系统的稳定性也是做了一个测试。另外就是跟我们的预案体系去结合,验证我们预案有效性,并且优化预案体系。这是平时做的事情,战时一旦发生了故障的时候,有辅助的决策去帮助我们的管理者快速地进行决策。然后决策完之后的话,到应急管理启动应急的指挥调度、处置流程等等,如果是涉及到本地自愈,我们就结合我们同创的自动化运维产品做本地自愈,如果是需要灾备切换的,就去应急管理去调用我们的灾备切换管理平台进行灾切,所以整个就构成了我们同创大的产品地图,就是践行了我们的业务连续性闭环。

借用一位国外的做业务连续性的一个同仁,他说的一句话结束我今天的分享:许多企业都以不让测试太难为目标进行自我测试,但真正的问题发生时不太可能那么体贴,混沌工程是业务韧性的未来,是找出系统是否可以真正恢复到一种现实的方法。谢谢大家。

由同创永益的技术团队研发的“CNBR混沌工程故障演练平台”产品,是一套成熟完整的混沌工程实践。通过对演练环境的基础设施、平台、中间件、业务系统、监控运维体系进行故障注入,模拟在生产环境下的异常场景,发现诸多的关键性问题,并自动记录演练数据用于演练总结,形成全方位的系统稳定性改善方案,从而为灾备方案、应急预案的适用性、可用性和稳定性夯实了基础,帮助企业发现并解决更多未知的影响业务稳定性的隐患与问题。




转载请注明:http://www.180woai.com/afhzp/7657.html


冀ICP备2021022604号-10

当前时间: