关于SRE在金融行业落地的探讨

北京中科皮肤医院好不好 https://m.39.net/baidianfeng/a_5153159.html

之前我们为大家详细介绍了分布式系统环境下,银行运维所面临的挑战与难题,分布式运维建设模式,以及分布式系统下运维工具的落地建议,但工具的建设并不意味着运维的成功转型升级,运维体系的建设需要有科学的指导思想以及体系化的建设理念。

本期我们就以Google经典运维体系理念——SRE为例,通过对SRE的主旨内容剖析,梳理SRE与运维开发之间的联系,同时通过典型SRE落地案例详解,与大家一同探讨SRE在金融行业的落地经验。

01.SRE主旨内容概览

1)什么是SRE

首先我们来看看SRE的几个定义:

分别来看,起源于Goole的SRE相对于它的组织来说,定义得是较为契合的,首先Google具备较强实力的人才储备,其次,经过了大量的内部实践,是经得起考验的,同时由内而外的推动使得这一体系的落地情况也比较全面。但对于国内企业来说,全能型的人才稀缺以及传统理念的固化让这一定义显得并不是那么的完善。

站在国内企业自身的角度来看,我们更倾向于第三种:从实践角度看SRE的关键点,就一个词:体系化,我们需要用全局视角才能更透彻的理解它。SRE实际上是需要多个团队、多个岗位分别去承担不同职能,并且各个团队之间能够相互协作合力,同时对外与业务团队、产品团队连接,构建工具去实现日常的运维和运营。

2)SRE与DevOps关系

本质上来讲SRE与DevOps没有很大差别,都是伴随着分布式、云原生、容器化、微服务等技术所衍生出来的一些理念,我们可以理解为DevOps是SRE核心理念的普适版。相比起来,DevOps比较抽象,而SRE是Google将DevOps具体实践后所提炼出来的理论体系。

3)SRE指导思想与关键概念

SRE具备以下几个指导思想:

拥抱风险:不确定性始终存在,我的目标是通过一系列的方法,去减少风险。

服务质量目标:透过具体指标反应运维水准,反过来约束失误可靠性。

减少琐事:减少日常重复、人工介入的工作,与自动化联动。

分布式系统监控:全局可观测性建立。

自动化系统:与减少琐事对应,增强自动化能力。

在确保稳定性的基础上,尽可能快的进行发布,满足业务需求。

尽可能简单化:工具、工作尽可能简单。

围绕以上指导思想,我们可以将SRE的一些关键概念串联起来,从而对SRE体系有更明确的认知。

关键概念上,主要分为四个层面

指标层:具体描述与SRE相关的指标

标准层:SRE相关系列标准

工具层:核心常用工具

体系层:围绕SRE建立的流程制度与体系

4)SRE岗位/团队的主要工作

了解了SRE整个体系的工作方式与方法以后,SRE具体团队在做什么样的内容呢?主要分以下三个板块:

参与运维架构标准制定:包括一些技术组件如何选择、日志规范如何设计、以及其他系统的规范和标准的制定。

运维产品开发:当标准梳理清楚之后,在运维日常工作方面,将琐事提炼为产品需求、规划能力,从而以产品为中心提升自动化,同时需要注意各个工具之间如何融合打通,避免烟囱式的建设。

日常技术运营:在标准化、平台化之后,针对运维日常工作进行改进和优化。

在这个过程中,我们可以下一个论断,即:运维模式/体系的下一站是SRE,而运维技术的下一站是AIOps。

5)SRE方法论

方法论层面,主要有以下几个重要点:

确保长期


转载请注明:http://www.180woai.com/qfhqj/7725.html


冀ICP备2021022604号-10

当前时间: