摘要:湖仓一体的发展历程与技术路径,不仅揭示了数据库技术和数据架构的发展趋势,为应对新的数据挑战提供了参考和指导,也预示了数据技术未来可能会向更集成、更智能、更自动化的方向发展。
2020 年,大数据 DataBricks 公司首次提出了湖仓一体(Data Lakehouse)概念,希望将数据湖和数据仓库技术合而为一。这一概念代表了数据管理架构的最新发展趋势,也展示了数据架构的未来发展方向。湖仓一体不仅可以满足企业对数据处理和分析的各种需求,也可以帮助企业实现数据价值的充分释放。
01
湖仓一体定义及构成要素
湖仓一体是一种新型的数据架构模式,该模式融合了数据湖和数据仓库的特点,以达成灵活、实时和具备多样性的数据处理目标。湖仓一体不仅拥有数据湖能够存储各类未加工数据的特性,还能像数据仓库一样进行高效数据处理和分析。这种新型的数据架构模式已经成为支撑数据驱动决策和业务洞察的重要工具。
湖仓主要由以下几个要素构成:
数据存储:能够存储各种类型的数据,包括结构化数据、半结构化数据和非结构化数据。这些数据可能来自不同的源,例如数据库、日志文件、物联网设备,甚至是社交媒体平台等。
数据处理和查询:支持高效的数据处理和查询。它可以像数据仓库一样执行复杂的数据分析查询,也可以快速地处理和分析数据湖中的大量原始数据。
数据管理:提供了全面的数据管理功能,包括元数据管理、数据权限等。这些功能对于保障数据的可用性和可信赖性,以及符合法规和政策要求,都非常重要。
数据集成和转换:支持多种数据集成和转换方式,可以处理各种类型和格式的数据,实现数据的统一视图,从而方便用户获取和利用数据。
实时和批处理:可以处理实时数据,满足低延迟的数据查询和分析需求,也可以进行大规模的批处理操作,满足大数据分析的需求。
这五大构成要素使湖仓一体成为了一种全面且强大的数据处理和管理解决方案,能够支持现代企业的各种数据应用需求。
02
发展历程
随着湖仓一体平台的快速发展,数据库行业正在迎来关键的分岔点。
在过去几年中,全球数据库行业经历了翻天覆地的变化。2020年,Gartner首次将数据库领域的魔力象限重新定位为Cloud DBMS,并将云数据库设定为唯一的评价标准。然后在2021年,Gartner魔力象限发生了两项重要的变化:
第一:Snowflake和Databricks两家云数据仓库公司被评为领导者象限;
第二:魔力象限的收入门槛限制被取消,SingleStore、Exasol、MariaDB、Couchbase等新兴数据库公司首次进入排行榜。
这些变化在一定程度上预示着全球数据库行业已经进入了其发展的黄金期,并且是新兴力量迅速崛起的时刻。在全球数据库行业不断发展变化的大背景下,我们可以观察到数据库架构的演变已经从传统的数据仓库走向了数据湖,再到现在的湖仓一体。
当我们回顾数据库行业的发展历程,可以明显地看到三个主要阶段。第一阶段是上世纪80年代开始的“数据仓库”阶段,第二阶段是2011 年伴随着大数据发展而产生的“数据湖”技术,第三阶段就是近年来开始的数据湖与数据仓库的融合趋势,业界称为“湖仓一体”。
第一阶段:数据仓库
上世纪80年代开始,数据仓库作为企业信息化管理系统的一个重要组成部分,积累了大量的数据。数据仓库的主要功能是通过其特有的信息存储架构,对这些数据进行系统化分析和整理。这个过程有助于支持决策支持系统、主管信息系统等的创建,并帮助决策者从大量数据中快速有效地分析出有价值的信息,以利于后期决策的制定和对外部环境变化的快速响应。
第二阶段:数据湖
2011年,随着大数据的发展,数据湖技术应运而生。数据湖是一个大型的仓库,可以存储企业的各种原始数据,为数据存储、处理、分析以及传输提供支持。相比于数据仓库,数据湖的存储容量更大,数据类型更丰富,可以增加对半结构化数据和非结构化数据的支持。此外,数据湖还对所有数据进行了集中式存储,并拥有庞大的PB级数据存储规模和计算能力,能够提供多元化的数据信息交叉分析,以及大容量高速度的数据管道。
第三阶段:湖仓一体
近年来,随着云和大数据技术的普及和演变,数据架构从存储形态到消费形态都发生了变化,演变成湖仓一体的形式。湖仓一体主要体现在数据结构从结构化到多样化,数据存储从分散到集中,从离线计算到流批一体,从单一云架构到混合云架构,数据工程从ETL到基于DataOps的ELT,数据消费从被动数据分析到主动探索,数据角色从数据开发到业务分析、数据管家和数据科学家。
湖仓一体是一种新型的开放式架构,它打通了数据仓库和数据湖,将数据仓库的高性能和管理能力与数据湖的灵活性融合了起来。湖仓一体的底层支持多种数据类型并存,实现了数据间的相互共享,上层则可以进行高效率的数据查询和分析。这种架构最大的优势在于,不仅能够实现数据仓库和数据湖的价值叠加,而且还能够让数据流动起来,减少重复建设,从而提高数据利用率和企业运营效率。
比如,湖仓一体可以让“数据仓库”在进行数据分析的时候,直接访问数据湖里的数据。再比如,湖仓一体可以让数据湖在架构设计上,“原生”支持数据仓库的能力。因此,湖仓一体平台在企业数据分析场景中起到了非常重要的作用,它使得数据湖和数据仓库形成了一个完整的数据分析生态系统。
放眼望去,湖仓一体技术在过去几十年的发展过程中,已经从数据仓库演变到数据湖,再到湖仓一体,这个过程充分展示了数据管理架构的进步和创新。随着大数据和云技术的进一步发展,我们可以期待湖仓一体技术将带来更多的创新和可能性。
03
技术实现路径
在湖仓一体架构的发展历程中,技术路径的选择成为了影响其发展方向的关键因素。具体来说,我们可以将其发展方向大致归纳为三种主要的技术路径。它们各自独特,依据其特点和优势,可以在不同的应用场景下满足各类客户需求。
基于Hadoop体系的数据湖向数据仓库能力扩展
这是一种从数据湖直接进化到湖仓一体的路径。通过在Hadoop体系的数据湖中引入数据仓库的分析功能,实现数据湖与数据仓库的有机结合。这种路径的优点在于Hadoop体系已经积累了丰富的大数据处理经验和生态,而引入数据仓库的分析功能能够使得数据湖有更强的数据分析能力。然而,这种技术路径的挑战在于,如何在大规模的Hadoop环境中有效地实现数据仓库的分析功能。
基于自身云平台进行架构构建
这主要是由公有云厂商推动的技术路径。他们基于自身云平台或相关产品,通过自研技术打通数据湖与数据仓库,实现湖仓一体功能。这种方式的优势在于云平台的弹性和扩展性,可以灵活地满足各种数据处理和分析的需求。但也面临着如何在云平台环境下确保数据的安全性和隐私保护等挑战。
独立数据库厂商推动的路径
这种路径的代表厂商如海外的Snowflake、Databricks以及国内的巨杉数据库等。他们以数据库技术为基础,自研分布式平台,从调度、计算到存储都不依赖第三方平台,形成可以灵活在公有云、私有云、裸金属等场景独立部署的湖仓一体平台。这种路径的优点是可以实现高度的自主控制和灵活部署,但同样也需要面对在各种环境下如何保持数据处理和分析性能的挑战。
以上三种技术路径,虽然有各自的特点和优势,但都指向了同一个目标,即实现数据湖与数据仓库的有机结合,满足不同场景的数据处理和分析需求。在未来的发展中,各技术路径将会相互竞争与合作,共同推动湖仓一体技术的发展。
04
结论与展望
对湖仓一体技术的深入理解和分析,让我们有机会更全面地审视其发展历程和技术路径。当我们回顾并分析这些重要环节时,湖仓一体的核心价值和未来方向变得越来越明朗。无论对于技术从业者,还是企业决策者,都有着非常重要的参考价值。
湖仓一体,作为数据湖与数据仓库有机结合的产物,标志着大数据时代解决复杂业务需求的新型方案。这一全新的架构和技术,通过有效地集成数据湖的灵活性和数据仓库的高效性,实现了大规模数据存储、实时查询、实时分析等需求的全方位满足,彰显了数据技术从单一模式向混合模式,以及从封闭系统向开放、灵活系统的转变。
在湖仓一体的发展中,基于Hadoop体系的数据湖向数据仓库的能力扩展、云厂商基于自身云平台的架构构建,以及数据库厂商以数据库技术为基础自研分布式平台的技术路径,都为湖仓一体技术的多样性和广泛应用打开了新的可能。这些不同的技术路径都将湖仓一体技术推向了更高性能、更广适用范围、更好的可用性的发展方向。
可以看出,湖仓一体平台的发展历程和技术路径不仅展示了数据库技术和数据架构的发展趋势,为应对新的数据挑战提供了实用的参考和指导,同时也预示了数据技术可能会向更集成、更智能、更自动化的方向发展。