IDC调研显示,有66.9%的企业了解湖仓一体架构,有85%的企业正在部署或考虑评估部署湖仓一体架构。在IDC《中国人工智能与大数据技术图谱,2022》中,湖仓一体被列为递增型代表技术,将在中长期持续提高、优化业务交付体验,作为支撑智能产业发展的统一数据底座,湖仓一体具备低运维、低成本、多格式、多功能、高价值、高敏捷、更安全、更灵活的特性,形成数据流通闭环,当前湖仓一体解决方案已在金融、互联网行业进行规模化应用,未来在大型央国企、工业、能源、交通等行业拥有更大的市场机会。
IDC数据统计,2022年中国大数据市场总体IT投资规模约170亿美元,并在2026年增至364.9亿美元,实现规模翻倍,与全球总规模相比,中国市场在五年预测期内占比持续增高,有望在2024年超越亚太(除中日)总和,并在2026年接近全球总规模的8%。湖仓一体作为核心数据管理架构,是后疫情时代企业布局和采购的重点,将对海量多模数据管理和价值挖掘产生重要影响。
IDC定义下的湖仓一体是一种新的数据连接技术,可以安全有组织地管理数据,保证数据清晰度和一致性,并促进数据湖与数据仓库之间的存储、流动、管理、分析。湖仓一体平台主要功能包括数据管理、数据存储、数据开发和数据安全,在对海量多模态数据进行编织、查询和分析,并融合AI、自动化、可视化技术,完成上层的数据开发决策和全周期管理。
数据治理体系、超大规模数据管理、数据时效性、全域数据融合是当前湖仓一体面临的四大挑战。一是如何形成系统化的大数据治理框架,需要建立数据标准,确保数据共享和数据质量,形成有价值的数据资产。二是如何构建以数据为中心的计算体系,组织和管理超大规模数据要素成为一项难题,其管理、性能、维护成本都较高。三是如何满足大数据高效处理需求,随着数据量指数级增长,数据时效性更差。四是如何实现多源异构数据的可解释性分析,从单域走向跨域数据存在网络时延问题。
在此背景下,IDC正式发布《IDC Technology Assessment:湖仓一体数据平台技术能力评估报告,2023》,从数据管理、数据存储、数据开发、数据安全、工程化落地、生态、覆盖行业等方向进行评估,并筛选出10家代表厂商,分别是阿里云、柏睿数据、滴普科技、华为云、金山云、巨杉数据库、科杰科技、网易数帆、星环科技、亚信科技(按照首字母顺序排序),以期望为企业管理者、技术开发者以及投资者提供建议参考。
本次研究的主要市场发现包括:
湖仓一体是实现海量多模态数据统一管理的必要手段。IDC调研显示,企业在数字化商业过程中更加关心利用数据和信息来创造自身竞争优势,因此实现底层统一的数据管理是进行上层资产管理和业务决策分析的关键。当前企业对内部数据管理、业务开发、外部监管的数据一致性要求更高,而已有的平台更多的是基于开源工具来搭建,非体系化的架构导致上层统一管理和维护开发工作量非常大,为更好地满足海量数据的管理需求以及替代需求,大型央国企、金融、通信等领域表现出了更明确的意愿来采购商业化版本。但值得注意的是,数据迁移成本相对较高,涉及人力投入、迁移周期、部门沟通等问题,厂商应在开发更加完善、敏捷、易上手的数据业务迁移工具的同时,为客户整体数据平台建设提供咨询服务。
厂商仍需加强湖仓一体市场教育和生态建设。数据湖作为数据集中存储区,用于存储、处理和保护大量结构化、半结构化和非结构化数据,它可以以原生格式存储数据,并处理任何转换格式而无需考虑大小限制。企业部署数据湖仓的路径通常是先采购数据库、数据中台、管理平台,然后再向底层部署湖仓,但客户对于湖仓一体的相关代表厂商、技术优势、技术标准等认知不清晰,主要需求还是对海量多模态数据的管理,合作厂商也以前期数据中台开发厂商为主,因此厂商需要加快产品宣传与技术标准制定等市场教育工作,提升社会认知和市场引领效果。
企业普遍处于数据中台建设时期,尚未进入碎片化中台时代。对比于互联网企业已经开始"拆"中台、将中台做小,大部分央国企、金融、能源、工业、零售企业还处于数据中台集中建设阶段,将统一的多模态、跨业务部门的数据采集管理平台作为底座,为上层各业务部门提供一体化开发工具,来降低总体拥有成本、简化数据管理、为上层智能决策打好基础、加快分析速度、加强安全治理。另外,银行、证券等大型厂商会选择与主流云厂商联合开发,打造专属云服务。
客户需求走向实时化。根据客户访谈,实时性成为提及最多的要求。时间是数据分析的重要维度,客户为提高用户画像和决策分析的精准度,提高业务成功率,需要对实时采集的数据做分析,打通采集、存储与分析的整体数据架构的瞬时响应,同时也需要利用人工智能技术来自动判断旧数据、老数据。当前厂商主要利用开源组件来搭建解决方案,但在数据流通速度、方案完整性、数据一致性上还有较大提升空间。
市场更看重厂商的场景服务经验、适用性以及灵活性。标准化的产品往往适用于管理层级更加明确的互联网和金融行业,而对于零售、能源、工业企业来说,由于其原有既定内部制度的因素,湖仓一体的产品往往需要跨部门、跨层级、可删改、可新增的灵活性。大型厂商需要注意的是,其打造的功能丰富的标准化产品,很难适配客户固有的结构机制,也有可能包含客户不需要的功能的采购成本,同时客户的自身体制变革主动性较差,因此需要开发可解耦的不与自家云绑定的平台工具以及打造灵活的售前团队,才能有机会占据更大的中小客户市场。
未来数据开发平台需要具备全生命周期组件、低代码/无代码、自动机器学习、算法模型库、可视化、部署运维六大能力。一是建立开发全生命周期能力,包括问题定义、数据准备、自定义化组件、模型训练、模型测试、部署上线、模型监控、持续集成,提供多样化公共组件,其中,提供自定义化组件来满足开发人员更加灵活敏捷适配的搭建需求是更加重要的。二是低代码/无代码,提供快速灵活的低代码、可拖拽操作来满足企业不同技术水平开发者的使用需求。三是自动机器学习,可以进行机器学习模型自动训练和参数配置,减少数据开发者重复工作投入。四是算法模型库,提供机器学习、深度学习算法和预训练模型,实现快速收敛和精准预测,打造基础任务模型和行业模型,满足不同业务需求。五是可视化,提供BI和ABI的可视化能力,进行更好的数据资产管理,帮助发现潜在数据异常和业务问题,以时间周期和不同业务维度来进行辅助分析决策。六是部署运维,将AIOps广泛应用到IT运维流程中,包括模型端侧部署、模型更新、异常检测、IT管理服务和自动化。
开放兼容的底座环境和行业属性产品更加满足客户的要求。由于湖仓一体平台涉及每个行业的know-how,且产品的经验沉淀和更新难度较高,该领域缺少行业级可规模复制化产品,因此人力投入的共建和后续支持迭代是必要的,这也是厂商完善产品能力的重要过程,客户也更看重厂商的配合度和产品开放属性。另外,满足行业属性也是前期咨询和落地的关键,例如交通物流领域的数据场景相对独立,需要基于多租户方式来提供服务,并进行租户权限管理,因此对管理模式以及资源消耗提出更高的要求。
数据安全隐私保护与安全可操作性是湖仓一体平台建设的底线。为实现数据要素的资产流通与价值挖掘,必须要保证数据全生命周期的安全可信和审计管理,建立内部常态化数据安全检测机制,形成数据要素安全监测闭环,加强数据安全风险信息的获取、分析、研判和预警,主要涉及技术包括安全管理平台、数据分级分类、安全风险评估、数据安全防护、安全行为审计、数据脱敏、数据水印、数据交易沙箱。当前厂商主要通过采购湖仓一体供应商的安全组件或适配公司内部自研安全体系来实现数据安全,同时客户也需要更高的可操作度和透明度,使得在不开放底层数据和核心业务的情况下,客户可以完全了解和自由改变平台功能,可控而非黑盒化。
给技术买家的建议
明确数据入湖周期与路线图。由于大部分企业早期基于开源大数据工具来构建各业务板块,导致在采购统一数据平台后,数据入湖和统一管理的迁移成本较高,部分企业仅有10%的数据完成入湖管理。因此企业需要明确数据入湖路线,拉通各业务开发部门,着力加快全部数据统一管理,这样才能更好地进行数据查询和挖掘分析。
加快建设资产管理平台。IDC调研显示,企业对资产管理平台的建设需求更为迫切,但仍缺少对数据的梳理摸排。为更好地建设企业数字化转型底座,需要加快数据资产管理平台的建设,实现数据采集、分析、流动、共享的全周期管理,来了解各部门业务需求,以提供统一的服务能力,减少重复造轮子的工作。
注重整体性、稳定性与实时性。企业在采购湖仓一体平台时,需要考虑厂商服务能力的完整性,比如云服务、数据存储、数据分析、数据中台、可视化、开发平台等完善能力,以及海量数据的稳定性和响应速度,并需要重点考虑厂商在实时性上是否有做特殊优化和创新。
选型时考虑平台对数据计算资源的管理。企业要避免在采购数据中台、大数据服务时忽视对计算资源的消耗,因此在选型时也要关注厂商的资源监控和自动优化能力,来帮助企业实现更低成本的投入和更高效的开发,也可基于各业务资源消耗情况来制定未来战略方向。
IDC中国新兴科技研究组高级分析师李浩然表示,湖仓一体是实现海量多模态数据统一管理的必要手段。IDC调研显示,企业在数字化商业过程中更加关心利用数据和信息来创造自身竞争优势,因此实现底层统一的数据管理是进行上层资产管理和业务决策分析的关键。湖仓一体与AI的融合表现在两个方面,一是赋能AI,即创新湖仓一体架构来满足ChatGPT对于海量数据存储、训练和实时推理的需求,二是更加重要的AI赋能,即企业更希望湖仓一体解决方案融合ChatGPT来实现开发侧的模型敏捷开发、数据智能分析、资源统一管理,以及上层业务侧的数据快速查询分析和总结,创建一个"所想即所得"的交互页面。