云计算 频道

从APM到AIOps华青融天如何解决棘手运维难题

  人工智能和机器学习技术的发展,推动大量依赖人脑决策和手工操作的IT 运维向着AIOps智能运维的方向快速前进。特别是当机器学习算法与基于大数据的业务运维管理平台整合,在告警过滤、异常监测、自动修复等环节发挥效用,就能把CIO和IT部门从繁复耗时、容易出错的基础运维工作中彻底解放出来,专注于更有价值的业务运维。

  纵观目前涉及AIOps的厂商,有两个技术流派。其一是从传统底层基础设施运维中走出来,借助机器学习技术,向上去与业务运维管理平台整合。其二是从业务性能监控解决方案出发,配合运维数据平台和数据分析大脑,通过自动分析监控数据并给出运维决策建议,大幅度提升运维决策的时效性和准确性。

  “自上而下”的运维模式

  华青融天就属于后者。至于两种技术流派的区别,华青融天产品解决方案总监包彤举例谈到,“对于华青融天所服务的金融大型客户来说,最需要的是从上往下的运维模式,比如有时候CPU 80%系统告警,如果对用户体验没有影响,那就不那么紧急;但如果CPU占用没那么高,但用户已经抱怨得很厉害了,就要尽快处理。”

从APM到AIOps华青融天如何解决棘手运维难题

华青融天产品解决方案总监包彤

  也正是因为这样,华青融天新一代AIOps产品EZSonar4.0版本,在原有基础上历时一年多才完成升级迭代,从数据采集、传输到存储分别使用了自主研发的探针、Kafka和大数据搜索引擎ElasticSearch。华青融天技术总监王勇谈到,对这几个模块进行实时监控就可以有效的了解系统自身运行状态,一旦发现异常可以快速处置,而且通过长时间的监测积累,可以为诊断系统瓶颈,进而评估硬件是否需要扩容提供有力依据,最终把产品作为一个可以吸收其他数据,以根因、分析为目标的综合性的运维数据平台。

  不仅如此,EZSonar4.0为了降低系统复杂度且易扩展新功能,采用了微服务的设计思想,对于开发人员可以集中在较短的时间周期内完成服务的开发,也就避免因代码交接工作不充分造成的很多遗留问题,另外由于每个服务的代码量较小,即使有新人来接手也会较容易弄清楚系统的逻辑,也就方便了问题的修复和新功能的添加。另外,由于每个微服务是一个独立的系统,可以采用单独的技术架构和开发语言,这就使得更多新的技术施用于新的应用中,带来了技术创新和崭新的开发理念。

  多维度关联分析 定位问题 解决问题

  借助华青融天EZSonar4.0强大的可视化仪表盘功能,不仅大大提升了仪表盘展示的可视性和配置的便捷性,让用户亲身参与到监控场景的定制中来,同时改变了过去将仪表盘简单视为一种工具的认识,可视化仪表盘实际上提供了一个按场景定制的可视化平台,并支持用户根据需要随时调整监控策略。用户可根据自己关注的业务场景,对监控内容进行灵活调整,往往能发现更多看不见的价值。

从APM到AIOps华青融天如何解决棘手运维难题

华青融天技术总监王勇

  在日常运维工作中,当运维人员在业务墙上发现了告警提示,可以点击告警进入“业务路径”观察在路径上相邻的节点或连线间都产生了哪些告警提示,然后依次点击查看各节点对应的指标数据,如果需要查看更多维度关联后的指标数据,点击“多维分析”可手动配置对多维度进行关联,展现明细数据。运维人员根据更多详细数据,结合自己对系统结构的认知,依次推断,逐项排查可能的问题点,最终定位问题根源。

  至于能不能再“激进”一些,做到省略排查过程,直接由系统告知原因呢?包彤谈到,华青融天开始将AI方法拓展到异常分析的领域,正在与清华大学AIOps实验室的教授专家们在探讨模型,试图延伸和串联起异常发现、异常分析到异常定位完整异常诊断流程,后续会把这些功能加入到产品中。

  尽管目前还需要积累更多的业务数据对算法进行训练,根据实际业务的需要对算法进行契合调整,相信很快华青融天能基于金融、保险、税务等相关行业串联起更多的业务场景,支撑起AIOps应用的一片天地。

0
相关文章