AI浪潮不仅带火了大模型,让算力、算法以及企业IT架构的底层逻辑发生变化,也让数据处理能力从“幕后”走向“台前”。如今,越来越多的企业希望通过湖与仓二者优势的结合,提供统一的数据存储、数据分析能力,让一份数据同时支持企业BI和AI场景,这应该是以StarRocks为代表的开源社区能够得以快速发展的核心源动力。
近日,以“Lakehouse Is All You Need”为主题的StarRocks Summit Asia 2024峰会在京成功举办。会议期间,StarRocks TSC Member、镜舟科技 CTO 张友东,深入解读了Lakehouse演进趋势,并就StarRocks社区过去三年在Lakehouse方向上的技术深耕和创新成果,接受了媒体采访。
“随着Data+AI融合趋势的发展,Lakehouse正成为下一代数据分析架构的标配。”张友东认为,在“One data,all analytics”业务需求推动下,Lakehouse将成为新一代数据架构的标准范式。
问题是,Lakehouse并不是一个“新名词”,为什么数据管理进入AI时代后,很多人更看好Lakehouse架构?下一代数据管理平台的演进方向是什么?这要从数据管理的发展脉络开始分析!
智能升级加速,数据处理关注度快速升温
作为大数据领域的重要部署方向,Lakehouse一直是高频词汇。所谓“Lakehouse”,并不是简单的数据湖与数据仓库功能的组合,而是一种新型架构的诞生,本质上是为了满足多种数据管理和分析需求,让数据处理更经济、灵活。
Lakehouse最早由 Databricks 在2021年首次提出,但这一概念并不是 Databricks 的专属。为了解决数据从数据湖到数据仓库复杂的ETL链路问题,包括数据的一致性、冗余的存储成本、数据分析的时效性等挑战,业界从两个方向开始探索湖仓一体架构 :一方面,以 Teradata、Oracle 为代表的传统数据仓库厂商,以及Snowflake、Redshift、Bigquery等新一代云原生数仓,正在向云原生架构进化,并且先后支持了数据湖分析能力;另一方面,则是以 Apache Iceberg、Apache Hudi、Delta Lake 等内核技术作为解决方案,在第一代 Hadoop 数据湖的基础上,通过支持事务管理和数据分析能力,从数据湖跨越到湖仓一体。
张友东分析道,不管数据管理的起点从哪里开始,最终发展方向一致,那就是Lakehouse,而Lakehouse已经成为新一代数据分析架构的事实标准。为了实现湖仓一体目标,提高数据分析的时效性,领先企业一直在从不同层面进行战略部署。其中一个重要事件是,Databricks斥巨资收购了Tabular,同时开源Unity Catalog,为用户提供标准化的数据管理能力;另一个大事件是,Snowflake开源了Polaris Catalog,实现了多引擎的数据处理,简化了数据的互操作性。还有一个重要动态是, AWS在本月月初re:Invent大会上发布了S3 Table Bucket,这说明用户可以通过S3直接创建兼容Iceberg格式的 Format,而“新的 S3”将是Lakehouse架构。
大体来看,Lakehouse之所以成为下一代BI+AI数据分析底座的优先选择,主要覆盖了三个重要的核心技术能力:第一,存储。用户可以使用Iceberg、Paimon、Hive、Hudi这种开放数据格式实现统一存储,这种低成本的对象存储路径,可以极大地降低存储成本;第二,Catalog。让数据湖上的数据以统一Catalog的形式向上提供,来支持统一数据访问,统一数据治理;第三,计算引擎。通过主流的Spark、Flink与 StarRocks 等计算引擎,可以更方便地访问存储在数据湖上的数据,满足不同数据分析诉求。
让价值落地,StarRocks推动 Lakehouse 开源引擎不断向前
Lakehouse架构如此美好,以腾讯、小红书、携程为代表的互联网头部企业已经走在时代前沿,加快部署速度。即便是相对稳健的金融行业,也在慢慢向湖仓方案升级。但是,要想让湖仓概念下沉到更广泛领域,还需要更多组织的加入、推广和普及,这也是StarRocks社区一直在努力的方向。
据张友东介绍,StarRocks是隶属于Linux Foundation的开源项目,自2021年社区成立以来,已经发展为国内外最活跃的大数据项目之一。经过三年发展,StarRocks社区已经取得初步成果,在GitHub 上获得超过9300颗star,活跃贡献者超过400人,超过450+市值10亿美金以上的企业在生产环境使用StarRocks提供的全场景服务。截止目前,实时数据分析场景已服务 270 多家企业,湖仓分析能力也获得 50 多家企业的实践验证。
可以说,StarRocks开源社区能够取得今天的成绩,实属难能可贵。在中国业务环境下,很多开源技术都由大厂推动,镜舟科技在有限的资源条件下,能够把中国开源力量向更先进方向引领,并在全球舞台上去竞争,可以说是突破了重重挑战。为了实现全行业、全场景覆盖,StarRocks采取了联合共创的形式,在社区发展初期,就与腾讯、小红书等企业合作,从实际业务场景中打磨业务,在经过技术先进性以及业务稳定性验证基础上,再辐射到其他更广泛领域。
目前,很多头部企业都在深度参与社区合作,除了镜舟科技在CBO、向量化引擎、主键模型、存算分离、数据湖分析、物化视图、Pipeline、半结构化数据处理等方面进行持续的技术迭代,阿里云、腾讯云、火山引擎等公有云大厂,也在数据湖分析、物化视图、行列混存、主键模型等方面,发挥关键作用。值得一提的是,StarRocks社区能够蓬勃发展,不仅是企业侧在单方推动,还有一些典型的社区用户,也做出了突出贡献。以腾讯、华为、滴滴、得物、芒果TV、Celonis为代表的社区用户,从文本检索、向量检索、全局字典、K8S Opeator等层面给力了大力支持。
很多用户之所以选择通过StarRocks构建湖仓架构,是因为StarRocks真正让用户做到了降本增效。以小红书为例,采用StarRocks+Iceberg构建Lakehouse,无需维护额外的ETL成本,存储成本下降50%。同时,StarRocks查询Iceberg比Clickhouse内表延时更低,且查询性能提升3倍,P90延时降到10S量级。再以微信为例,基于StarRocks+Iceberg构建的湖仓一体平台,可以更好地满足离线和近实时场景。从实际效果来看,新的湖仓架构可以让数据分析的效率从天/小时级别提升到分钟级别,查询延时达到亚秒级别,数据新鲜度在秒级别,整体存储成本降低65%。
开源生态要想蓬勃发展,需要联合共创
回顾过去,StarRocks主要做对了两件事:第一,打造了开源开放的社区,StarRocks社区吸引了各行各业的用户加入,成就了今天活跃的商业化生态,并且有广泛的开发者参与,其影响力已经辐射全球。第二,基于OLAP、MPP架构和向量化执行引擎等一系列先进技术进行持续优化,使得StarRocks在众多产品中脱颖而出,得到业界广泛应用。
放眼未来,技术发展日新月异,StarRocks如何做到紧跟时代、继续保持活力?张友东表示,Lakehouse将是StarRocks发展的最终方向,是数据分析的未来。正如AI领域的一篇经典论文《Attention Is All You Need》,强调了Attention注意力机制在AI领域的重要性。Attention之于AI,相当于Lakehouse之于数据分析。所以,Lakehouse Is All You Need,很好地诠释了StarRocks的未来发展。
为了打造更开放合作的社区生态,StarRocks还联合生态力量打造了一个知名的“实时湖仓铁三角”,即StarRocks+Flink+Paimon让数据新鲜度、资源消耗和查询性能达到三者兼得。由三者构建的联合共创解决方案,相比普通实时数仓提升了1-5分钟的写入时效性,同时减少90%的存储成本,降低50%的Flink开销。相比离线数仓,写入时效性由小时级别升级到分钟级别,查询时延由分钟级达到秒级,并且还能提供增量更新能力。
结论:
在人工智能风靡全球的时代,现代化的数据基础设施是AI能够成熟落地的前提,因为只有高效的数据架构才可以显著降低AI应用的TCO(总体拥有成本)。正如张友东所言,StarRocks以及背后的商业化公司镜舟科技之所以能够脱颖而出,主要是抓住了这波创新机遇,相信随着企业业务智能升级步伐的加快,随着企业对数据治理关注度的不断提升,湖仓一体架构将成为满足用户实时数据处理需求的“必须品”。最后,让我们对StarRocks过去三年所取得的成绩表示祝贺;同时,也借此呼吁更多企业能够加入开源社区,共同把StarRocks社区做大做强,让中国开源力量在全球舞台上熠熠生辉!