实战壮志凌云中信银行凌云工程巡礼

文/中信银行凌云工程项目组全荣炫李永忠赵征

年5月3日,中信银行凌云工程一次性全业务投产切换成功,历时2年的凌云工程顺利完成。中信银行采用新技术的银行核心系统建设技术路线的成功,验证了中信银行大型创新项目科技管理方法的成功。在具体实践中,攻克多项核心技术难题,开发多种新型技术工具,创立了适合的新型技术架构,推动建立了注重自有技术和科技创新的市场氛围。

凌云工程技术特点

凌云工程的建设是一个持续面临挑战,不断突破前行的过程。自始至终聚焦三个核心挑战:一是关键技术挑战,国产分布式数据库产品能否满足金融交易高性能、高可用、强一致性的基本要求;二是工程实施挑战,如何用最小成本继承核心系统几十年信息资产;三是金融高可靠性挑战,如何有效缓释银行核心系统这类复杂重要应用场景下重大技术创新所面临的不确定性风险。

为应对挑战,凌云工程以技术创新为驱动力,着重强化新技术、新工艺、新方法、新体系,最大限度地降低工程实施风险,大幅提升工程实施的质量、效率和能力。在技术创新中注重两个方面:一是政策引导,不追求短期回报,对切实能带来科技飞跃的项目给予中长期的科技投入支持;二是镶金加料,个人科研发芽,集体智慧填土加水,让它长成参天大树。

1.核心技术:联合研发,达到银行核心系统要求的金融级分布式数据库。中信银行和中兴通讯联合研发的GoldenDB国产分布式数据库,聚焦金融级应用特性,在正确性、全局事务一致性、高并发、高可靠性、高可用性和易扩展性全面达到银行核心系统要求。

在全局事务一致性方面,在做到分布式事务实时强一致的前提下,数据库处理能力实测可超过万QPS。在服务高可用方面,多维异常检测技术实现故障节点的精准定位,在此基础上运用“智能选主”技术可确保节点级故障,业务秒级恢复,RTO30秒;机房级故障业务分钟级恢复,RTO5分钟;城市级故障RTO10分钟。在多层级防御方面,识别可能影响系统性能的“不良”SQL,并拒绝其请求,确保数据库整体服务水平。凌云系统运行一年,GoldenDB数据库生产实际可用率达到99.%。在在线扩容方面,采用全量迁移和日志增量回放相结合的方案,设计了“时间极限逼近法”精准控制锁表时间,实现数据在线扩容时无需对外停止服务,对业务影响为秒级。

图1中信银行核心业务系统分布式架构转型框架图

2.工程方法:实现一次性整体迁移、业务无感、核心应用全继承、工程实施时间短、最少投入。在凌云工程中,中信银行创新了软件代码自动翻译工具、全仿真测试平台、实时数据迁移技术等专项科研成果,有效提升了项目的效率和质量。

研创代码翻译技术,将万量代码从封闭的IBM体系翻译成拥有技术优势的开放平台代码语言,做到核心技术资产全继承、需求功能零遗漏、零偏差。

研发仿真比对技术,解决了自动化测试中测试案例自动化、保真性、规模化和测试结果自动检核的难题。

创新数据迁移技术,研发准实时数据迁移技术,为一次性切换争取充分时间窗口。凌云工程投产停业窗口只用了10小时。凌云工程实现了在停机切换时点完成全部数据迁移,全部数据%技术比对,%正确,大幅节省停机后数据迁移和比对时间,缩短了对外停止服务窗口时间。

3.关键工艺:基于生产仿真工艺,最大化缓释未知技术风险。在以往跟账测试模式的基础上,凌云工程创新生产仿真工艺,多层次、多角度、高仿真场景模拟,充分识别和消除新架构隐患,驱动分布式核心系统可用性、稳定性和容错能力迭代优化,夯实系统可靠性,最大化缓释未知技术风险。凌云工程交付业务验收前,生产仿真系统已稳定运行3个月,未出现5级以上事件,系统成功率在99.99%以上;在业务验收测试时,与中信银行常规项目平均缺陷率2%相比,三轮业务验收测试缺陷率全部低于0.85%。

图2凌云工程研发工艺

4.体系建设:立足“平台化运维”,建立“全域覆盖、全时自动、全程可控”的分布式核心运维体系。凌云工程建立分布式运维体系,实现应用从性能、服务状态到单交易的有效管理和治理,有效监控和分析应用运行健康状态,实施故障预警和自动化应急处置,有效保障新核心安全、稳定运行。同时,建立多层次、一体化的监控体系,覆盖系统、应用、交易、日志、分布式缓存、分布式数据库、网络、硬件8个维度,共计指标,实现7×24小时全面监控。

图3分布式核心运维监控指标

5.项目管理:以人为本的项目管理,充分发挥每个参与者的主人翁意识。平台的更新换代,在凌云人眼中不是新与旧的更迭,而是积累与创新的融合,不制造零和竞争、不置人于被动改变,不但给新平台技术人员成长的空间,更尊重原平台技术工作者们的奉献和积累。凌云工程在建设初期就把原平台研发、运维人员价值发挥作为项目的一个重要目标。怎么解决这个问题,技术问题当然要用技术手段解决,中信银行自主研发的核心“中间件”应用平台,封装、继承了核心应用提供基础技术服务和异常机制处理能力,提供联机、联机批量、日终批量服务应用框架。技术变了,但过去的成果没有丢,新老技术人员可以切磋逻辑精妙的设计、灵机一动的创意和“不否定过往的价值”,让每个人都有属于他的一班列车,让技术人员的路越走越宽。

项目实施效果

1.系统运行方面,整体表现优于传统核心系统。凌云系统整体表现优于传统小型机单主机处理效率,全方位满足了金融类业务场景的要求,提升了业务支撑能力与科技服务水平。采用两地三中心双活部署架构,相比传统主备机模式,高可用和容灾能力显著提升,性能容量显著提高。年8月两联“双十一”压测,每秒交易量可达0笔,表现良好。批量业务处理效率优势明显。全行储蓄账户上亿,匡息只需3分钟,比传统核心系统提速4倍,且期间数据库主备节点同步无延迟,提升了系统可用性。

2.经济成本方面,大幅降低核心系统转型成本。凌云工程通过代码翻译技术和仿真测试工艺的运用,大幅降低了核心系统重构的成本。与中信银行年投产的新核心相比,在系统容量提升的前提下,总建设成本下降50%以上,建设周期缩短40%以上,而且质量高、风险小,投产前无遗留缺陷,业务功能零遗漏。此外,凌云工程统一了核心系统与行内其他系统的技术栈,从科技人力资源到基础软硬件资源,以及应用研发与运维体系,全系可复用。

3.市场价值方面,GoldenDB国产分布式数据库能够替代国外商业化数据库软件。通过凌云工程的锤炼,GoldenDB国产分布式数据库已成为全面满足银行核心系统要求的通用金融级分布式数据库,成熟可靠,可实现对国外商业数据库的硬替代。

4.知识贡献方面,分布式核心系统建设“中信方案”赋能同业实现分布式转型。凌云工程成功实践,为银行业提供了核心银行系统分布式转型的“中信方案”。方案的核心内容包括:GoldenDB国产分布式数据库在核心系统的典型应用范例;代码翻译为核心技术的核心应用资产复用方案;基于代码翻译技术与仿真测试技术的研发工艺;围绕生产仿真运维的风险缓释方案;分布式运维体系建设方案。“中信方案”为股份制商业银行及区域性金融机构打开了一扇通往分布式核心转型的大门,从经济性、方案选择、工程实施等方面,让开展核心系统分布式转型实施有章可循。

5.业务价值方面,新核心系统助力中信银行业务发展。目前,“凌云系统”支持3亿客户、15亿账户,每秒交易量超过2万笔,每日支撑3亿笔交易,为中信银行全力服务实体经济、积极防范金融风险、全面实施数字化转型提供强劲“新引擎”。

中信银行凌云工程以拥有完整知识产权的国产金融级分布式数据库为核心技术,突破了传统国外单主机的银行核心业务系统架构,并且创立了一次性整体迁移到开放平台的快速切换方法,率先在国有大中型银行中实现了核心业务系统分布式架构转型。下一步,中信银行将继续探索银行核心业务系统分布式架构转型道路,向着云化、服务化、数智化方向迈进。

(栏目编辑:张丽霞)




转载请注明:http://www.180woai.com/afhhy/6334.html


冀ICP备2021022604号-10

当前时间: