云计算·大数据 频道

农业银行智能运维建设和应用实践

  随着业务数字化转型及架构分布式转型的不断加速,商业银行的运维管理模式逐渐从“IT运维”向“IT运营”转型,以数据为基础、算法为支撑、场景为导向的AIOps智能运维技术是运维转型的必然方向。人民银行印发的《金融科技发展规划(2022—2025年)》明确要建立健全金融数据中心智能化运维机制、加强多场景协同联动、多节点一体管控,提升节点感知、异常发现和故障预测能力,降低人工操作风险,推动运维管理模式转型升级。中国农业银行从2020年开始持续开展AIOps智能运维建设,自下而上构建了“数据驱动、引擎赋能、场景导向”的智能化运维技术体系,旨在推动农业银行运维领域的智能化、数字化转型。

  中国农业银行科技与产品管理局

  副总经理 李树尉

  总体思路

  在智能运维(AIOps)体系建设过程中,我们面临着三个具体的问题。一是如何将分散、割裂的运维数据资产化?运维领域的各类数据分散在不同系统,缺乏统一的规范、标准,数据的采集、加工、聚合是要解决的首要问题。二是如何将低效、繁琐的分析过程简单化?因为数据分散,用户获取运维数据非常困难,多依赖手工采集,质量参差不齐,且分析手段单一,难以深入挖掘数据价值。三是如何将复杂、多变的分析应用场景化?一些共性类的运维痛点问题缺乏统一统筹,运维数据应用效果较差,一些个性化的场景得不到快速响应,迟迟无法落地,数据无法发挥价值。针对上述问题,农业银行的解决方案如下。

  数据先行,通过建设运维集市,实现运维领域数据的大集中,并在此基础上构建运维指标体系,以此来实现运维数据的有效沉淀与高效共享。

  引擎赋能,通过搭建面向用户的AI+BI双核引擎实现分析效能最大化,为用户提供便捷的线上分析工具,提升用户触达和分析运维数据的效率,从而提升数据的使用效率及价值。

  场景驱动,统筹建设满足共性痛点的通用场景,敏捷响应各类个性化场景,通过共性场景和个性化场景共同推进的方式来切实推动智能运维场景的落地应用,真正解决问题,切实发挥作用(见图1)。

  图1 农业银行运维数据分析体系

  体系架构

  1.数据集市。通过建设运维数据集市,将所有运维类平台的数据进行了大集中,包括变更、事件等运维管理类数据,CMDB、接口消费关系等配置类数据,性能指标、告警等监控类数据以及各种运维操作、运行日志及各类IT运营指标数据,通过对6大类运维主题数据的集中管理和统一建模,实现了运维数据的高效共享。将数据入库之后,又通过Spark、Hadoop、GBase等海量数据处理及存储技术,实现了低代码、可视化的海量运维数据处理及存储架构,能够支持灵活、快速迭代各类数据加工需求。同时,结合生产运维领域的各类指标需求,构建了运行、运维、运营三运指标体系,规范化、持续化进行数据赋能,并且明确了运维数据使用和消费流程,支持运维数据的线上申请、审批、使用,实现运维数据获取的统一扎口,并在实际对外提供数据服务的过程中,从需求出发推动运维数据治理,提高运维数据分析质量。

  2.分析引擎。数据分析平台建设了适合运维领域使用的AI算法引擎和BI可视化引擎,AI算法引擎实现AIOps算法组件化建设及共享、在线拖拽式算法设计、模型在线训练及管理了,能够满足一些高阶的分析需求,BI可视化引擎支持在线自助建模、多维度数据钻取、多种自定义可视化组件,能够满足大部分简单可视化分析需求。

  此外,农业银行按照运维分析项目的维度对分析活动进行了全流程线上化管理,包括了运维分析的申请、审批、成员管理、数据共享、成果展示全流程闭环管理机制,大幅提高运维数据的使用和分析效率。

  通过工具赋能以及管理闭环这两种手段,解决了运维分析效率低下的问题。同时也是运维分析理念上的创新,通过这种租户式的场景,为广大科技人员提供了高效的运维分析手段,从而鼓励广大的科技人员自主开展分析,最大化地发挥运维数据的价值。相比传统的由单一团队开展功能建设,由各个科技人员按需开展自主分析更能符合用户的真实诉求,也更能体现智能运维中用数据赋能的理念。

  3.智能场景。场景建设是智能运维的核心,因此在数据分析平台整体落地的过程中,通过经典场景与个性化场景相结合的方式来具体推动场景落地。

  在经典场景方面:针对运维领域的一些共性问题,围绕“事前预警分析—事中运行分析—事后总结分析”这个大的思路,打造了一系列简单、易用、有效的经典场景,解决共性问题。在事前关注运行态势,挖掘运行风险,防患未然,打造了包括批量智能预警、潜在风险挖掘等核心场景;在事中,注重汇聚多方信息,掌控全局情况,辅助异常定位及影响分析,打造了智能根因分析、全景洞察视图等场景;在事后,总结历史运行情况,深入挖掘和利用数据,提出优化建议,打造了应用系统画像、健康分析报告等场景。

  在个性化场景方面:通过AI、BI引擎提供自助式、定制式的个性化分析场景建设服务,快速响应个性化分析需求,必要时采取定制开发的形式进行交付,将数据赋能落在细处,促进整体运维能力提升。

  实践案例

  1.业务风险分析。随着核心系统分布式下移进程的加速推进,运维人员面临的运维压力也与日俱增,如何提前识别业务运行风险、快速定位异常部位、准确分析业务影响是当下亟需解决的问题。传统的方式一般是通过对交易量、成功率、响应时间等指标手工配置阈值的方式来监控系统运行情况,在出现问题后通过查询日志等方式进行故障定位,其监控规则依赖运维人员手工配置,准确性、颗粒度、覆盖面等较难保证,故障分析效率也较低。针对上述问题,农业银行建设了核心业务风险分析场景,该场景基于对核心交易日志的深入分析,实现了业务波动智能检测、触发式多维下钻分析、业务视角影响分析等功能(见图2)。

  图2 业务风险分析案例

  业务波动智能检测:通过对交易码、错误码、渠道、通道等维度的聚合分析生成相关维度的交易量、成功率、响应时间、错误数等业务指标,基于滑动平均、ESD、LightGBM等算法,综合节假日、工作日、业务高峰等时间因素及不同业务指标特性动态生成指标基线,无需人工配置阈值即可智能识别指标异常。在此基础上综合指标异常情况持续时间、偏离度等因素判断指标异常态势,如业务量显著下降、响应时间突增后保持、错误码首次出现、错误码数量持续上升,在识别到异常波动后及时产生预警提示。

  触发式多维下钻分析:在识别到业务异常后,支持触发式快速下钻分析,通过智能对比当前各维度业务指标相比历史同期、昨日的变化情况智能推荐可能存在异常的根因维度。如在发现某交易码交易量异常上涨时,通过判断该交易码对应的省市、渠道、通道等不同维度指标相比历史的变化程度来判断到底是哪个省市、哪个渠道或哪个通道的异常导致了此交易码的交易量上涨,以此来快速定位异常排查方向。

  业务视角影响分析:通过交易码与业务的对照关系、交易码与系统的对照关系,在核心系统检测出异常后,自动分析当前受影响的业务种类与系统范围,并根据受影响程度自动进行业务健康度评级。

  业务风险分析功能目前已在农业银行分布式核心系统全面推广应用,作为监控系统的有效补充,业务风险分析功能具有粒度更精细、规则更智能、视角更贴近业务等优点,核心业务系统的故障发现率提升了50%。

  2.全景洞察视图。新技术栈、分布式架构下导致运维对象指数级上涨,业务调用链路更加复杂,应急定位效率亟须提升。农业银行构建了全景洞察视图场景,从一站式信息汇聚、海量指标异常检测、智能根因分析等方面全方位提高运维数据的展示、分析及决策辅助能力。

  一站式信息汇聚:对于因各条线、各平台信息割裂,导致运维人员无法快速掌握生产运行全貌信息,无法准确决策的问题。通过对系统关联信息、资源拓扑信息、运维活动信息、性能指标信息的全景汇聚,结合一些拓扑图、关联图、时间线等创新性的展示形式,让用户能够快速、友好的掌握各项运维数据,辅助开展决策。

  海量指标异常检测:对于海量的监控指标全量分析的性能及准确度问题。通过相关性分析算法实现指标的分组分析,大幅降低需要检测的指标数量,解决海量指标全量异常检测的性能瓶颈,并基于不同的指标分类自适应选择不同的检测模型,提升指标异常检测准确率。

  智能根因分析:综合考虑指标、告警、关联等运维信息,构建自下而上的运行健康度评价体系,打造AI算法与专家经验相结合的全方位根因定位方式,实现对系统运行情况的智能洞察与快速定位,能够智能推荐当前最可能导致生产运维的异常指标或行为。

  目前农业银行智能根因定位场景已在生产上得到了广泛应用,为生产异常的“及时发现、准确定位、快速处置”提供了有力支持,其中AI根因定位已覆盖全部应用系统,专家定位流程覆盖70余个系统共积累200余条专家经验,生产异常的定位时间压缩至5分钟以内。

  3.变更风险评估。据业内某机构统计,有70%以上的生产故障是因为投产变更导致,如何有效防范及发现变更导致的运行风险是有效遏止生产事件发生的关键手段。传统的变更风险防控手段一般是在变更前进行变更评审,在变更后进行技术和业务验证,这种方式依赖较多人为因素,且在当前变更数量日剧增长的情况下,无法对每个变更都进行有效的评审验证。

  基于上述问题,农业银行针对性的建设了变更风险评估场景,该场景基于对变更相关的工单数据、配置数据、关联数据、指标数据的深入挖掘,在变更前、后分阶段从不同的维度和视角探测变更风险。

  变更前—智能标签生成:梳理可能影响变更风险的关键要素,制定对应的标签及生成规则,利用统计分析、NLP等数据分析方法提取变更标签,结合重要程度为每个标签设定权重,并综合变更总体的权重得分在变更评审时智能推荐给评审人重点关注。

  变更后—指标变化探测:通过对系统变更前后各项监控指标、日志数据的变化情况的分析来判断系统运行态势是否因变更导致大的变化,进而评估变更风险。

  变更风险评估功能目前正在分布式核心、手机银行、快捷支付等系统试点应用,在试点期间多次捕获由变更导致的指标态势变化,通过该功能成功识别出异常变更信息,有效遏止了生产风险。

  未来展望

  接下来,农业银行智能运维领域将重点聚焦以下三方面:一是注重智能运维的体系化服务能力建设,智能运维是一个很大的概念,单纯一个运维数据平台的建设是无法完全支撑的,需要通过平台提供的数据服务能力、算法分析能力以及场景建设能力,持续为用户、为运维平台、为管理过程全面赋能,才能逐步推动其在运维数字化转型的过程中发挥更大作用;二是关注大模型技术在运维领域的应用,大模型所表现出的卓越的理解、生成、调度等能力,在与运维数据深度结合后,有可能加速智能运维的落地进程,在智能问答、自动控制、辅助分析等领域均有着很光明的应用场景;三是继续拓宽AIOps在运维运营领域的应用范围,除了传统的质量、效率类场景,为运维管理、安全管控等领域进行赋能也是数据分析平台建设的下一个重点方向。

0
相关文章