越来越多的企业选择将关键业务部署上云后,希望有一站式的运维工具保障业务的持续稳定运行。除了能监控各种基础资源消耗和应用健康状态外,还希望能感知各地域真实用户体验RUM(Real User Management), 能深入了解业务所依赖的基础服务、中间件和第三方服务对业务的影响;当业务性能下降或者异常,如客户投诉在线支付老失败时,企业希望有工具能协助运维人员快速诊断问题,找到问题根因,甚至在影响到业务交易之前提前预警。针对这些典型的企业诉求,华为云推出了立体运维解决方案AOM。
华为云推出的立体运维提供真正“立体”的全方位能力,包括齐全的数据种类、端到端跨层全链路分析和丰富的数据洞察能力。下图是立体运维的模型示意图。
垂直采集数据,齐全的数据种类是华为云立体运维的基础。
华为云立体运维数据包括四大类数据,分别是指标(Metrics),日志(Logs),调用链(Traces)和各种事件告警(Events)。
指标数据(metrics):既有IaaS层资源指标,也有PaaS层应用资源指标,客户所用云服务业务指标、客户业务自定义指标(由客户根据自身需求主动上报)。
日志数据(logs):客户指定的业务和各种中间件的运行日志
调用链数据(traces):客户通过非侵入式方法获得的调用链数据,典型的场景就是用户应用是采用Java开发的。如果业务应用是其他开发语言开发的,那么只需要在代码中引入SDK或者直接按照标准格式上报调用链数据即可接入平台。
事件及告警(events&alerts):客户应用主动上报的各种事件和直接告警信息,还有根据预定义规则产生的事件和告警。
网络包数据(packets):主要是虚拟网络、容器网络中面向应用的网络性能数据。这一类数据一般都被指标metrics所涵盖,不过也有一种发展趋势:主张packets数据独立出来为一大类,那么就衍生成五种数据源,本质上是一样的。所以立体运维的第一个维度就是数据来源的全覆盖。
水平分析能力,提供端到端(E2E:end to end)的跨层全链路分析是华为云立体运维基本能力。
当云应用的物理或逻辑资源规模扩大、应用技术栈的多样化、应用架构的容器化、微服务化后,运维的复杂度是非线性增长的,业务复杂些的企业应用甚至还是多AZ、跨DC的。因此带来的巨大挑战就是对用户体验管理(RUM)和业务可用性(Availability)越来越不可知性。这是大大有别于传统计算环境(On-premise)运维经验。为了解决这个问题,华为云AOM支持从最终用户的Mobile端、Browser端,跨过网络到云服务端(backend),而云服务端,AOM支持对应用及其基础资源的分层感知,包括业务应用层(SaaS层)、中间件服务层(比如内部服务、外部第三方服务或者消息通道、缓存等中间件)、以容器为代表的PaaS层和IaaS基础设施层。
事实上AOM把很多指标数据中的一些维度属性和IaaS、PaaS层的基础部署信息结合起来,形成面向应用的元数据集(内部称之为Inventory),和传统的CMDB有些类似,但粒度更细。Inventory的目的就是为面向应用的数据分析提供各种可能的“关系网”。不管是基于Java的非嵌入式采集性能数据,还是基于Agent+插件的性能数据自动采集,又或者基于SDK或者REST API方式上报性能数据,AOM都能在上述各个层面中做到事务(transaction,比如加入购物车这个动作)级甚至深入到函数方法级别的调用关系追踪。加上在虚拟容器网络方面的优势,AOM真正做到了E2E的全链路性能管理。
分析洞察能力,提供多元化的技术分析手段和功能智能化,是华为立体运维面向人工智能时代的升级。
应用运维面临的场景复杂,没有功能较多的“炮弹弹”,因此华为云运维精心打造 “十八般武器”,提供多种功能特性。为什么AIOps对IT运维如此重要呢?一方面是机器的全局观优于人类。尽管人类局部认知可以很深入,但在复杂的场景中,尤其是各种可能组合数量远远超越了人力所能企及的范围,要掌握全局是有很大困难的。其次运维中某些场景对时效性要求非常高(比如秒级监控、故障自愈),比如基于指标、日志、事件的告警;根据监测指标、服务模型、规则和算法智能地及时自适当调整(典型的有云服务的弹性伸缩)。因此,除了传统的各种数据源分析之外,华为云还推出了基于AI技术的智能异常检测和事务洞察。
华为云立体运维AOM,协助企业减轻传统运维的压力,为企业关键业务保驾护航,让运维不再困难。
HUAWEI CONNECT 2018作为华为自办的面向ICT产业的全球性年度旗舰大会,将于2018年10月10日-12日在上海隆重举行。本届大会以“+智能,见未来”为主题,旨在搭建一个开放、合作、共享的平台,与客户伙伴一起共同探讨如何把握新机遇创造智能未来。