云计算·大数据 频道

专访浪潮KaiwuDB魏可伟,谈谈时序数据库的选型思路

  回望过去,数据库的发展可以用“波澜壮阔”来形容,从只能查询结构化数据的传统关系型数据库,到OLTP与OLAP分道又融合,再到NoSQL、云原生走上时代的风口,多少优秀的数据库产品脱颖而出。时序数据库,以时间戳或时间序列数据优化的方式,满足了专有数据库场景需求,获得了广大用户的青睐。

  问题是,关系型数据库自20世纪80年代开始,就在支持时间戳数据库类型,企业为什么不再选用传统的关系型数据库处理时序数据,而是要开发专有数据库?ITPUB本次邀请到浪潮KaiwuDB魏可伟,从关系型数据库的存储引擎开始说起!

  ▲KaiwuDB CTO 魏可伟

  01

  时序数据库VS传统关系型数据库

  首先,关系数据模型是一个非常伟大的发明。通过表、列、行这些简单的概念,关系型数据库可以完成对整个世界的抽象。经过几十年的发展,关系数据库的技术也非常成熟。所以时序数据也可以通过关系模型来表达,用关系型数据库来存储和处理。但是随着时序数据规模的不断增长,大家发现关系型数据库一方面在处理时序数据时能力是“过剩”的,例如多种复杂的事务机制和隔离级别都不太用得上;另一方面在面对时序数据的数据规模时暴露出在性能和灵活性上的很多问题,显得“又贵又难用”。

  魏可伟举了个例子,一个用作记录风力发电设备信息的时间序列,如果我们每秒采集一次,每天就会生成86,400条记录。如果要采集1,000个这样的发电设备的数据,一天就需要处理8000万条数据,一年是300亿条数据。传统的关系型数据库为支持通用的关系模型而引入的索引机制、事务模型、数据组织形式都会影响数据的高速写入、高效压缩和时序数据通常所需要的聚合效率。而时序数据库则会针对时序数据追加写入操作多、更新删除操作少、写入频率可预测、查询多使用时间范围作为条件、时间越久远的数据价值越低等特定有针对性的优化数据写入、数据存储和数据查询机制,从而得到更好的时序数据处理性能和更低的时序数据存储成本。

  另外,针对物联网、车联网这种场景,无论是过程数据采集,还是过程控制,都有时效性要求。也就是说,时序数据库往往需要具备实时数据处理能力甚至是预测分析的能力,从而更好的满足业务需求。

  在魏可伟看来,时序数据库是为了满足时序数据处理高性能与低成本而产生的,并在发展的过程中结合时序数据的特点,响应相关行业的业务需求不断发展,在实时处理、趋势分析等领域不断加强。与传统关系型数据库相比,在性能、成本、易用性等方面都有明显的优势。

  02

  云与AI加持下的时序数据库发展

  当时序数据库走上时代的风口浪尖,对于广大用户来说,面对市面上百花齐放的时序数据库,该如何正确选择?

  魏可伟认为,从传统的互联网到物联网再到万物智联时代,企业在时序数据处理的挑战,不外乎四点:第一,海量时序数据处理带来的性能和成本上的挑战,包括时间线膨胀和数据采样频率提高带来的写入分析的性能挑战,超大数据规模带来的高存储成本的挑战等等;第二,开发和运维成本。激烈的市场竞争要求开发团队以最短的时间把项目交付,在项目交付后以可以在更低的运维成本下稳定运行;第三,产品的生态。数据库产品是客户IT设施建设中的一环。数据库产品的价值只有在整个IT基础设施构成的价值链中才能体现。因此,数据库产品是否能和IT基础设施中的其他部分协同工作也是客户需要考虑的重要因素;第四,产品带来的价值提升。如何从海量物联网数据中挖掘出洞察为企业决策提供支持,甚至是指导企业决策逐渐成为时序数据库产品的决定性因素。

  放眼市场,时序数据库可以说是百花齐放,有通用时序数据库,例如InfluxDB和TimescaleDB,有为专有场景定制的时序数据库,例如主要面向监控场景的Prometheus和Graphite,也有Apache Lindorm这样的可以支持多种数据模型融合的多模时序数据库。

  可以说,现代时序数据库尚属一个新兴领域,并没有一个统一的行业标准和技术架构。有的时序数据库基于传统的关系数据库技术,有的时序数据库基于NoSQL数据库,也有的直接在存储层上构建了全新的计算模型,这些技术路线都有其适用的行业和特定场景。

  值得一提的是,相比其他时序数据库,KaiwuDB更具融合化特征。魏可伟表示,KaiwuDB既是一款分布式时序数据库,也是一款多模时序数据库。KaiwuDB拥有分布式数据库的强一致、高可用分布式架构、分布式水平扩展、高性能、企业级安全等特性,适用于工业物联网、数字能源、交通车联网、智慧产业等快速发展的重要领域。同时,KaiwuDB具备多模数据库的特性,可以支持时序、结构化、半结构化和非结构化数据的存储和分析。KaiwuDB的定位是成为物联网领域的数字化转型底座,通过对时序数据和关系数据等其它类型的数据存储和分析,结合分布式技术实现高扩展性和高可用性,并提供原生AI能力,一站式的满足物联网数据管理的需求,带来企业价值的提升。

  03

  下一代时序数据库部署

  说白了,靠谱的时序数据库不仅需要超强的写入查询性能和水平扩展能力,还需要云、边、端协同能力。这就要求时序数据和关系数据要能够进行深度融合,辅助企业业务决策,快速做出响应,这也是KaiwuDB提出AIoT数据库概念的最根本原因,只有具备了大数据分析、AI和云边端协同能力,才能符合下一代时序数据库的未来发展。

  KaiwuDB魏可伟强调,多模、原生AI支持以及云边端一体化能力,可以打破不同数据模型和管理系统之间的壁垒,进而提升数据管理的时效性和安全性,降低总体开发成本。尤其随着AIGC火爆全球,让AI能力更具可消费性,把预测分析能力作为数据库的原生能力,时效性数据价值才能进一步凸显。

  以数字能源解决方案为例,用户可以借助KaiwuDB实现一体化数据平台建设。具体操作流程是,在端侧通过智能传感和边缘计算完成数据采集和基础治理,然后利用5G通信技术将数据上传至云端,利用AI及大数据算法进行数据挖掘,产生预测性结果后再反向传送回边缘端,实现对设备的控制。

  当然,到底要选择什么样的时序数据库,还需要从客户自身业务出发。更具体的来说,可以从数据库的写入查询性能 、开发运维成本、长期规划和产品生态来考虑。只有权衡各方利弊,选择能引领未来的产品或者平台,才能全面拥抱云原生、开启万物智联新时代。

  采访嘉宾简介

  KaiwuDB CTO 魏可伟,北京大学计算机硕士,近20年数据库、大数据分析和人工智能研发经验。曾任IBM资深技术主管(Senior Technical Staff Member),IBM主机机器学习平台全球首席架构师,IBM中国开发中心数据与人工智能实验室技术委员会主席,IBM中国开发中心Db2研发技术负责人等职。在国内外拥有数据库与人工智能专利30余项。

0
相关文章