随着数字经济在中国经济占比接近四成,数字化已经成为了所有金融机构的必修课。2022年1月,国务院印发《“十四五”数字经济发展规划》,围绕数字经济发展,部署了优化升级数字基础设施、充分发挥数据要素作用、大力推进产业数字化转型、加快推动数字产业化等核心任务,并对金融业提出了加快数字化转型的发展要求。
同月,央行印发《金融科技发展规划(2022—2025年)》,提出搭建便捷易用的中台、激活数据价值、加快企业数据资产化、释放数据要素潜能、提升数智化营销能力等重点任务;银保监会出台《关于银行业保险业数字化转型的指导意见》,更是明确提出全面提升数据治理、数据服务能力、实时化数据应用等数据架构新要求。数字化时代的数据需求从“低频、静态的管理决策支持”向“高频、动态的日常业务经营和数据价值消费”转变。
一、数据仓库在金融行业的发展历程
随着关系模型在数据库领域的成功,Oracle、DB2、SyBase、Informix等数据库产品涌现出来。很长一段时间内,这些产品非常好地满足了企业对于数据存储、数据计算的需求。但是,随着数据量越来越大,应用场景越来越复杂,类似Teradata等公司开始在面向分析的应用场景上做出新的探索。1991年Bill Inmon出版《Building the Data Warehouse》一书,书中正式提出了数据仓库的概念。数据仓库诞生之后,逐渐面临数据爆炸、运维管理复杂、成本高昂等问题,云计算时代又给数据仓库云原生化带来了新的契机,通过大幅降低运维难度和成本,提升扩展能力和易用性,云原生数据仓库成为各领域构建数仓的首选。
金融企业往往同时经营着多个业务线,各个业务线独立建设自己的业务流程支撑系统,以实现业务操作的线上化和信息化。这种“烟囱式”的系统建设方式,会造成数据不一致、口径不统一等问题,对金融企业的数据使用和决策支撑带来困扰。金融行业的数字化转型成为必然趋势,要求行业必须具备敏捷创新能力,快速响应用户需求,实现面向新业务的转型。数据仓库技术的发展,为金融行业构建企业级数据平台提供了良好的方法论和技术支持,对金融企业提高商业竞争力至关重要。
数据仓库在金融行业经历了如下几个发展阶段:
图1 数据仓库在金融行业的发展阶段
(1)报告型数据仓库阶段。数据仓库整合各业务系统的数据,以各种报表的形式呈现出来,供各级管理者浏览使用,管理者通过报表了解目前的业务发生情况。(2)分析型数据仓库阶段。管理者更希望了解现实情况产生的原因。需从不同角度对数据进行分析,需大量使用数据分析、数据挖掘等技术,向数据提出问题,从数据当中获取“知识”。(3)实时服务型数据仓库阶段。管理者希望进一步实时集成数据,实时获取分析服务,实时预测未来的业务发展和可能风险,以提前做出业务响应和决策。依赖数据和算法,管理者从被动管理逐步转向为主动管理的决策状态。
二、传统数仓面临的问题及新一代数仓的新要求
根据IDC预测,到2023年,中国的数据量将达到40ZB。数据仓库作为数据密集、计算密集的数据集中处理平台,是数据承载、数字化转型不可或缺的一环。长期以来,国外数据仓库厂商是金融、运营商等重点行业的普遍选择。传统数据仓库面对数字化转型新的诉求显得越来越“力不从心”,主要体现在:自主可控能力不足;一体机扩容成本高、兼容差;缺乏智能化工具、建设周期长;实时分析和响应能力不足。随着各行业数字化转型的深入推进以及IT系统自主可控的政策性鼓励,传统数仓迎来了转型升级的重要窗口期。
图2 新一代数据仓库的发展要求
新的数字化转型和数据应用服务下,金融行业必须思考新一代数据仓库的建设和解决方案。《金融科技发展规划(2022—2025年)》和《关于银行业保险业数字化转型的指导意见》对新一代数据仓库提出了新要求。
(1)中台化:构建集成数据整合、提纯加工、建模分析、质量管控、可视交互等功能的综合型数据中台,打造数据驱动、业务联动的企业级数据服务能力中枢,推动业务数据化向数据业务化进阶发展。
(2)数智化:在获客、活客方面,盘活金融机构内部数据资产,洞察客户行为偏好和真实金融需求,向客户提供智能化、人性化的营销内容、产品选项、搜索结果等。
(3)安全化:建立完善数据安全管理体系,建立数据分级分类管理制度。强化对数据的安全访问控制,建立数据全生命周期的安全闭环管理机制。
(4)统一化管控与差异化服务的平衡:新一代数据架构既要兼顾对数据的研发、管理、模型、标准、治理等数据架构管理的统一化要求,又要满足业务对数据实时化、低门槛数据服务、数据沙箱安全隔离、云原生等灵活性和差异化业务需求。
图3 传统数仓到新一代数仓的多元化能力对比
数字化时代,作为企业数据架构的核心“数据动能引擎”,新一代数仓除了实时化、服务化的基础能力外,需要具备更加多元化数据处理技术和主流技术架构融合。
为了解决上述问题和需求,阿里巴巴立项研发了一套高性能、敏捷可控、独立知识产权的云原生数据仓库AnalyticDB。AnalyticDB在关键技术上持续创新,解决了传统数据仓库在大规模数据复杂分析场景下存在的性能、并发和智能化瓶颈,在支持复杂查询的分布式存储引擎、超大规模混合负载的执行框架等方面取得重大突破。AnalyticDB的用户覆盖包括传统大中型企业、政府机构、金融机构、互联网在内的十余个行业,并获得了浙江省科技进步一等奖。
三、新一代云原生数据仓库的关键技术能力
下面将结合AnalyticDB,介绍新一代云原生数据仓库需具备的能力。
1.ACID+CRUD。由于金融行业对数据的准确性、可靠性的严苛要求,以及数据规模的极速扩张,传统数据仓库一方面通过MPP架构提升整体系统的吞吐,另一方面在分布式场景下也继承了传统关系数据库ACID的特性确保了数据的准确可靠,ACID+CRUD这些基本特性是传统数据仓库的优势,也是新一代数据仓库应该继续保留和发扬的。AnalyticDB保证完整的ACID事务能力,支持并发Insert/Update/Delete/Select,能够支撑真实复杂的金融业务场景,满足金融业务需求。
2.HTAP。HTAP数据库是能够将事务处理(OLTP)和数据分析(OLAP)请求在同一个数据库系统中完成。分析师认为,这种架构具有显而易见的优势,不但避免了繁琐且昂贵的ETL操作,而且可以更快地对最新数据进行分析,这种快速分析数据的能力将成为未来企业的核心竞争力之一。
AnalyticDB以OLAP为基础,不断优化OLTP的处理能力。在某交易所新版实时监查系统中,既有按证券代号、股东代码精确查询,也有市场级别的拉抬打压的分析,通过AnalyticDB提供的高效资源隔离能力,既保证了数据百万级别的实时高效写入,也保证了复杂分析的秒级返回,为科技监管提供了有效的技术支撑。
3.架构平滑演进。架构平滑演进是指企业能够根据数据业务场景的特点,对扩展性、可用性、成本、性能等多方面综合考虑去选择最适合的一种底层数据平台架构,并具备向另一种架构的平滑演进能力。随着数仓集群规模增长到一定程度(>200台),存算一体架构遇到越来越大的问题,比如集群规模无法进一步的扩大、数据无法共享、硬件故障导致的性能下降等。得益于40Gb网络、NVMe SSD、RDMA、CIPU(硬件辅助加速)等技术的普及和推广,新一代数据仓库架构得以升级和更新。
AnalyticDB实现了真正的存算分离,一方面通过计算和存储分离做到资源池化实现资源最大化利用,另一方面通过低成本的对象存储进一步减少成本,并具备快速横向扩展的能力。
图4 新一代数仓的存算分离架构
4.自主、安全、敏捷。《关于银行业保险业数字化转型的指导意见》将自主可控提至全新高度,自主案例是金融行业数字化转型的核心关注点,要求坚持关键技术自主可控原则,对业务经营发展有重大影响的关键平台、关键组件以及关键信息基础设施要形成自主研发能力,降低外部依赖、避免单一依赖。加快数据库、中间件等通用软件技术服务能力建设,支持大规模企业级技术应用。
AnalyticDB可实现对MySQL、Oracle、Teradata等的替代,支持主流CPU等自主可控的硬件平台和OS部署,满足部署需求。AnalyticDB代码均由团队自主研发并掌握底层核心架构,行级代码自研率达到86.13%,完全具备代码的自主修改和调整能力。
四、新一代云原生数据仓库的实践
出于服务国家“十四五”数字化转型和基础软件部署战略,阿里云重磅推出“数据仓库升舱解决方案”,将阿里标准化产品、多年实践、成熟方法论结合,旨在解决传统数据仓库升级转型面临的诸多新变化,为行业客户提供全新的数仓应用体验,从以往高度限制业务发展的老技术架构,升级为云原生技术架构,加速数据价值在线化。
通过阿里云“升舱”体系化的指导方法论和配套实践路线,帮助金融行业客户将传统数仓全面升级至AnalyticDB,或构建于AnalyticDB基础上的数据平台全新架构,有效满足客户对于数据平台实时化、弹性扩展、高性价比及安全可控的诉求,突破传统数仓技术瓶颈,赋能企业数智化创新。
图5 新一代数仓AnalyticDB应用实践
目前,AnalyticDB在金融行业中已经有诸多实践落地,如申万宏源证券、中再集团、太平洋保险等,在实时监察、实时推荐、数字营销、千人千面个性化服务、实时账单服务等领域实践,帮助证券、保险、银行打造一体的云原生数据仓库服务,从点到面逐步提升金融机构数据能力。