沙丘社区Logo
发布
登录
注册
沙丘社区Logo

工商银行数据中心数字化运维转型实践

作者:沙丘社区香料间2023年8月2日
1381
数字化转型IT与云服务人工智能

近年来,工商银行加快推动全行经营模式和治理模式的数字化变革,以自主研发的“云+分布式”平台为核心,构建满足全行数字化转型需求的新型金融科技基础设施,扎实推进全球银行业最大规模主机业务下移,打造了银行业科技高水平自立自强的样板工程。目前,工商银行金融云平台已实现17万节点和45万容器的超大规模自动化、集约化管理,成为工商银行数字化转型的重要驱动力。

工商银行数据中心作为支撑全行业务经营和数字化转型的关键信息基础设施,始终牢固树立底线思维,不断加大科技创新力度,持续探索生产运维管理新范式,为全行高质量发展和数字化转型奠定了新的发展优势。

一、因势求变,生产运维面临新的挑战

银行业一直高度重视数字技术的应用和发展,积极利用人工智能、大数据等新兴技术为客户提供更为智能、便捷的金融服务。数字化转型正在成为构建金融机构差异化核心竞争力的关键要素。随着业务与技术的深度融合,全面深入的数字化场景运营体系以金融科技为依托,连接客户与各类业务场景、合作生态及经营要素,不断重构传统金融边界,全面提升金融服务质效。

在这一时代变革背景下,面对高效响应、灵活调整和组合创新等业务要求,银行科技部门需要打破传统的系统架构和技术架构,推动数据中心转型升级,构建新一代数字化技术底座。而原有与集中式核心信息系统相适配的传统运维模式,也需要通过底层重塑和技术迭代,形成数字化配套运维能力。当前,银行生产运维数字化转型的痛点主要体现在以下五个方面。

一是业务处理从高度集中的主机架构转向高效协同的分布式架构,信息系统实现了更便宜的算力、更灵活的扩展和更快捷的发布,但节点和服务的规模及调用依赖也上升到了新的高度,服务治理成为运维过程的关键基础。一个完整的业务场景往往需要调用多个应用服务和技术组件,且会随着版本的迭代而不断演进变化。对于服务依赖的识别和关键服务调用链的重保,已成为监控、应急和排障的重点。

二是容器等虚拟化技术改变了计算、存储、网络等资源的传统供给模式,资源管理方式从定向供应、独占分配转为集中调度、共享复用。在基础设施体量快速增长的趋势下,对全局分布式资源的有效管理往往是影响整体信息系统能力的关键因素,这其中,对各类实体和虚拟资源信息的获取是开展有效管理的前提。

三是相比传统主机单体架构,分布式技术提高了整体信息系统的可扩展性,但同时运维的不确定性也在显著增加,故障率呈指数级上升。分布式系统部署范围更广、节点类型和数量更多、物理位置与逻辑架构解耦,这对其在高可用、性能容量、监控、应急、账务一致性等方面的运维配套能力提出了更高要求。

四是为支撑业务敏捷上线,应对市场的快速变化,生产变更操作的次数和频率均出现翻番式增长,单纯注重精耕细作的传统变更管理方式已难以为继。如何在随时演进的分布式架构下构建主动防御体系,提升技术验证的效率、降低变更风险,已成为必须要解决的问题。

五是随着数字经济的蓬勃发展,数据中心作为事关国家安全和社会稳定的关键信息基础设施,已成为国民经济体系中被强依赖的关键节点,而新时期内外部形势变化更加错综复杂,数据中心安全防护形势正在发生深刻改变,无论是在威胁态势感知,还是在监控检测和应急响应等方面,传统的安全防护体系都已经难以应对。

二、多措并举,实施运维架构转型工程

面对数字化转型下大规模基础设施运维的挑战,工商银行数据中心迎难而上,积极探索运维架构转型新路径,主动对标行业优秀实践,系统论证新一代运维架构的建设目标和整体规划。运维架构转型锚定“生产安全稳定”和“服务重质高效”两个目标,通过分解当前监控、应急等运维业务场景,实现了平台建设、监控发现、应急处理、性能容量管控等多个工作领域从组织架构到工具链的全面变革;同时充分运用资源管控技术,发挥云化基础设施优势,努力满足资源运营灵活供给需求。

1.推进运维基础平台建设,围绕业务板块实施运维转型

一是面向“平台监控、运维自动化、一键式应急”等诸多运维场景,全力打造运维数据中台和运维服务平台两大基础平台,推动运维数据运营能力建设和服务治理自动化建设,并以两大基础平台为支撑,推动融合型监控、应急决策、运营分析等场景落地,为各类运维场景提供通用与自动化操作服务。目前,运维数据中台数据实时计算处理能力达200万条/秒,批量处理能力达日均500T,在跨专业监控分析和报警信息压降、应急组织与决策辅助、高危操作预警等方面实现了快速有效的建模分析和服务响应,并针对快捷支付、聚合支付等15个重点应用的交易异常场景推出了一键式立体化健康检查功能。

二是从业务视角端到端划分业务运维板块并重新定义运维对象,形成面向业务指标的全链路监控体系,显著提升业务链路的分析和决策能力:强化业务板块化运维管理及板块间运行风险隔离,有效控制故障爆炸半径;基于业务标签染色及链路数据实时聚合计算,实现了围绕业务场景的体系化监控;通过规范化建设,自动实时生成业务场景实际调用链的拓扑透视图,为业务板块构建全链路可观测监控底座;针对板块内重要业务场景打造一站式全链路可观测中心,并进一步建设智能基线、故障定位等智能化监控体系,提升运维可视化能力和关联分析能力。

2.引入柔性计算技术,赋能资源高效运营

随着数字化转型的深入推进,信息基础设施规模快速扩大,导致用云成本大幅增加。工商银行数据中心充分运用弹性伸缩、资源配额推荐调整、Serverless函数计算和资源混部等柔性计算技术,结合单元化架构优化和业务运维板块建设,实现了涵盖基础设施状态、业务运营分析等多维度的性能容量分析和资源管控能力,可对资源域级性能容量变化情况进行实时更新展示。

在资源混部技术方面,利用机器学习算法预测应用的负载趋势情况并计算最佳配额,主动调度,将不同优先级应用部署在同一个物理节点,平抑资源忙闲不均状态;通过毫秒级资源隔离技术应用,实现节点资源利用率提升2倍以上而应用稳定性影响小于5%。

在弹性伸缩方面,基于CPU、内存等资源使用情况实现了应用副本秒级扩缩,生产环境月均扩缩超过2万次,资源无需按峰值需求置备。

在Serverless函数计算方面,通过根据函数计算按需加载、实时弹性伸缩的特点,落地模型发布、分布式批量、标准化投产等场景,使资源利用率提升90%。

3.提升故障应急服务能力,实现业务级快速止损

工商银行数据中心通过应急管理平台建设,大幅提高了应急管理自动化、精细化水平,实现事前、事中和事后管理的全流程贯通。在故障恢复环节,双管齐下提升应用自愈水平和一键式应急工具切换能力,大大缩短了应急恢复时间,将应用级切换时间控制在2分钟以内。此外,工商银行数据中心还上线了应急预案可执行平台,实现重启、扩容、限流等应急动作的标准化集成和工具系统的自动化联动。目前,应急预案可执行平台已应用于PaaS平台应用容器重启、扩容和MySQL数据库CPU异常冲高等应急场景。

4.增强变更防御能力,大力防范变更风险

实践表明,变更是引发生产稳定性问题的主要因素之一。为降低变更差错对业务运行的影响,工商银行数据中心分别从流程和技术两方面入手,依托变更在线方案平台和变更自动化平台,按照可灰度、可验证、可回退的要求,推动变更风险防御机制建设。变更在线方案平台以标准变更场景为切入点,全面覆盖数据中心六大专业线变更领域,并应用变更风险防御规则库大幅提升了变更风险事前检查分析、事中监控干预等硬控制能力,支持检测规则与检测条目的灵活配置。目前,变更风险防御规则库已实现包括高危命令检测、明文密码检查、方案完整性检查和应用状态检查等在内的多项检测规则,建立起不依赖人为操作的防御机制,成为守护变更风险的最后一道防线。

5.打造以安全态势感知平台为核心的新一代纵深防御体系

数据中心作为工商银行生产运行的“心脏”,面对新的形势和要求,在信息安全能力提升方面实施了一系列基础工程,构建了稳定性更高、防护能力更强的全集团一体化安全防护与安全运营体系,成立了同业首个全面正式运作的信息安全运营中心,实现7×24小时全集团统一的安全策略、安全漏洞、安全舆情、安全事件等安全一线集中管控,全面覆盖境内外上百家分支机构的近百万台设备,构建了贯通安全监测、分析研判、应急处置、改进优化等网络攻击全生命周期的总分联动机制。

工商银行数据中心自主设计研发了银行业首个安全态势感知平台,通过与各类安全防护系统、内部运维系统的对接,引入大数据分析技术,探索人工智能与安全技术的深度融合,结合威胁情报库、安全漏洞库、安全资产库等进行安全事件关联分析建模和自动化应急响应处置,进一步提升了全行主动立体的安全防御能力。以该平台为核心的新一代纵深防御体系和威胁情报体系的防护能力贯穿网络层、载荷层、服务器层、应用层等完整的攻击路径,并结合由外网诱捕和内网探测组成的全行蜜网,实现了未知威胁的主动发现与针对性攻击的溯源反制,有效提升了对各类软硬件漏洞的监测处置效率,实现了对各类新型隐蔽攻击的监测和阻断。

三、以演促练,有效检验运维转型成效

工商银行数据中心始终坚持“技术+平台+场景”三位一体工作思路,多要素协同推进生产运维转型。转型工作成果能否真正提升关键信息基础设施运行的稳定性,赋能工商银行全集团业务的快速发展,必须经过实战的考验。工商银行数据中心通过建立常态化、规范化、流程化的故障应急演练机制,为快速发现和化解各类安全生产隐患积累了实战经验,进一步夯实了运维机制的敏捷性和实效性。此外,工商银行数据中心还不断丰富演练场景,拓展演练覆盖范围,逐步形成了线上、线下一体化的故障演练体系;联合总行运行管理部、资产托管部、远程银行中心等业务部门完成了数十次科技与业务联动演练,涵盖网点业务、融e行、资产托管、快捷支付、聚合支付等核心业务条线,演练内容包括故障注入、监控评估、故障修复、业务交易模拟和复盘评估等环节,在演练中各场景均达到了在1分钟内发现故障、2~5分钟定位故障、5~10分钟恢复生产的要求。当前,工商银行数据中心正在推动混沌演练平台建设,并不断完善应急演练评价体系,努力提升运维架构转型成效,提升一线运维团队的战斗力。

2023年4月,工商银行云原生智能运维建设项目顺利通过中国信息通信研究院开展的云计算智能化运维(AIOps)能力成熟度模型通用能力要求评估,并获得业界最高等级评级。工商银行数据中心将在此基础上,再接再厉,始终坚持“科技自立自强”与“安全生产第一”的理念,拥抱创新变革,推动生产运维自动化和智能化水平迈上新的台阶,为科技强行和数字工行建设提供有力的技术支撑。

版权声明: 本文为微信公众号作者【中国金融电脑】的原创文章。

原文链接:【 https://mp.weixin.qq.com/s/hVS7dIkgpbZJrPgWdEmWGw 】。

本文遵守【CC BY-NC】协议,转载请保留原文出处及本版权声明。

沙丘社区官方账号。

366篇原创内容
阅读 1381
收藏
沙丘社区Logo专注人工智能和大数据的数字技术社区
联系我们
  • 客服微信: zimu738
  • 加入我们: hr@shaqiu.cn
  • 业务合作: miao_tim
  • 内容投稿: service@shaqiu.cn
公众号
智库小程序
客服微信