云计算·大数据 频道

到底什么是实时数据仓库?

  如今,数据已成为企业最重要资产,有效的数据管理是企业进行产品质量改进,提升数字竞争力的有效手段。

  只不过,随着企业数字化转型步伐的加快、数据管理系统越来越多,使得数据应用变得越来越复杂。如何让数据管理更简单、易用?如何让企业积累多年的数据流动起来,更好地辅助企业进行业务决策?这是很多企业一直在思考的问题!

  回望过去,数据仓库解决方案在20世纪80年代末首次投入使用,虽然已发展了40多年,但核心功能一直沿用到现在。数据仓库将来自不同来源的信息合并到一个综合数据库中,为企业构建一个可信、单一以及一致的数据源。而中间过程是通过ETL来实现,即数据提取(Extract)、转换(Transform)、加载(Load)。

  换言之,通过结构化数据的合并以及多个数据源的整合,再借助数据分析工具和一定的方法论,企业可以通过历史数据迅速做出战略决策。数据仓库出现以后,从数据管理与数据分析中“尝到甜头”的企业,开始越来越多地依赖这种方式提高企业的运营能力。随着数据仓库的大量使用,企业开始出现实时数据分析需求,这时传统的离线数据仓库出现了明显的局限性,最终推动了实时数据仓库的发展。

  那么,实时数据仓库和传统数据仓库到底有哪些区别呢?我们先从概念开始梳理!

  传统数据仓库与实时数据仓库之间的“恩恩怨怨”

  传统数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的综合的数据集合,用于支持整个企业的战略管理决策。企业可以整合多个独立的数据源,以创建一个统一的管理视图,包括可以提供企业在过去某个时间段的数据表现,内容包括数据被加载的具体日期,并且可以细化到哪天哪个星期哪个月份。

  而实时数据仓库和传统的数据仓库功能一样,最大的区别是,数据展示能力不是T+1天的更新频率,而是可以做到T+1秒。实时数据仓库通过每天多次刷新其存储的数据,来满足企业对即时信息不断增长的需求。可以说,存储在实时数据仓库中的信息,包括数据被请求和分析时的状态,在一定程度上代表了企业运营的实际情况,可以更准确地提供业务画像。

  传统数据仓库与实时数据仓库区别如下:

  需要强调的一点是,实时数据仓库的目的是使企业能够快速获取信息,可以立刻对新信息做出反应,实时的维度要限定在几小时、几分钟,甚至是秒级。这意味着,要想满足实时数仓需求,不能再使用传统的ETL工具,或者依然使用传统的数仓。当然,并不是说传统数仓不能满足实时数仓需求,在新的ETL工具支撑下,或者通过现有的ETL工具升级,也可以达到近乎实时的需求,比如可以按周实现数据更新,这要根据企业业务需求来衡量。

  实时数据仓库应用带来的好处“看得见、摸得着”

  鉴于目前实时数据仓库解决方案的计算资源消耗太大,企业往往在需要实时数据分析和有连续数据报告需求的场景中使用,如:物联网传感器数据处理场景,有波峰和波谷状态的金融交易分析场景,以及想从客户关系管理(CRM)数据中探索买方行为的业务场景。

  在上述应用场景中,实时数据仓库带来的好处显而易见:

  1、更快的决策。企业可以根据更多最新的、准确的和一致的数据更快地做出决策,减少等待时间。

  2、控制数据负载。较小的、更有规律的负载,只包括已经改变的数据(而不是整个数据源),可以减少较大的、不太频繁的更新,进而影响前端用户侧的体验,尤其对于有着7*24运营的企业来说,实时数仓特别重要。

  3、更快的恢复。如果数据加载出现问题,数据不可用,那么等待下一次加载序列的时间就会减少,实时数仓可以让恢复和干预更快进行。

  4、更好的可用性。实时数据仓库可以消除批量加载数据带来的弊端,不需要像传统数据仓库那样,在数据加载时需要处于休眠状态,使数据源在一段时间内不可用。

  总体来看,虽然实时数据仓库对那些依赖数据分析来运营业务的企业来说至关重要,但考虑到其成本,实时数据仓库不一定是每个企业的标配。对大多数企业来说,近实时数仓可能也是一种选择 ,比如:每周进行加载每天执行一次,使数据仓库的用户能够访问更多最新数据,而无需对加载过程或数据模型进行重大修改。

0
相关文章