大数据架构平台架构设计和技术分析-云计算·大数据专区

大数据架构平台架构设计和技术分析

作者：DataFun 编辑：李代丽 2024-05-27 16:03 IT168网站原创

　　本文首先介绍了大数据架构平台的组件架构，让读者了解大数据平台的全貌，然后分别介绍数据集成、存储与计算、分布式调度、查询分析等方面的观点，最后是专家眼里大数据平台架构的发展趋势。

　　大数据平台架构

　　从图上可以看出，大数据架构平台分为：数据集成、存储与计算、分布式调度、查询分析等核心模块。我们就沿着这个架构图，来剖析大数据平台的核心技术。

　　数据集成

　　专家观点：

　　数据集成非常重要，因为跟业务方相关的第一个环节就是数据集成，数据集成如果出现问题比如速度慢、丢数据等，都会影响到业务方数据的使用，也会影响业务方对大数据平台的信任度。

　　3. 数据传输队列

　　数据传输有三种：

　　Kafka：流式传输

　　RabbitMQ：队列传输

　　Pulsar：流式传输+队列传输

　　专家观点：

　　Kafka是Hadoop组件全家桶，名气更大，但是易用性还是差一点。

　　Pulsar 跟Kafka很像，不过架构比Kafka更先进，属于后起之秀。

　　更多：数据集成的 9大 ETL工具

　　数据处理：数据存储、计算

　　专家观点：

　　● Spark+数据湖是未来的发展方向。

　　● 离线的场景很丰富，但是缺乏处理的非常好的统一的计算引擎，hive和spark都无法做到，所以这一块未来还有很大的发挥空间。

　　（2）实时计算引擎优缺点及适用场景

　　实时计算引擎大体经过了三代，依次是：storm、spark streaming、Flink。其中storm和spark streaming现在用的很少，大部分公司都在用Flink。

　　专家观点：

　　● Flink的优点是：可以实时的进行计算，在处理流计算这个方向上是最好的组件，而且几乎可以替代近实时的业务场景。

　　● 缺点是对离线处理会略显不足，不太适合处理大批量的离线数据集。

　　● Flink的优化方向很多：

　　a. Flink在流处理稳定性上，虽然已经做到极细粒度，但是遇到阻塞时，会存在丢失数据的问题。需要加强稳定性。

　　b. 实时性的提升：实时的优化是无底洞，业务需求能到秒级别、毫秒级别，怎么能让Flink在业务场景用的好，提升速度的同时，保持数据一致性，是Flink面临的挑战。

　　数据调度

　　大数据查询

　　1. 大数据查询引擎

　　常用的OLAP引擎对比：

　　2. 大数据查询优化工具

　　大数据查询优化工具包括 Alluxio、JuiceFS 和 JindoFS。

　　专家观点：

　　Alluxio：

　　数据编排最为强大，市面上常见的存储系统、云存储服务均可以直接接入，也可以自行实现相关 api 以接入其他自研存储系统，可以说 Alluxio 最为通用，既可用于云存储服务的缓存接入或数据编排，也可作为传统 HDFS 的多集群数据编排。

　　JuiceFS：

　　● 提供了和 Alluxio 非常相似的功能，如元数据与数据分离的存储、数据编排、与 Hadoop API 兼容、Fuse 等特性；

　　● JuiceFS 也有不错的数据编排特性，元数据存储的方式比 Alluxio 更多元，主要用于云存储场景。

　　JindoFS：

　　● 局限于阿里云 oss 场景的分布式存储系统；

　　● 支持与 Alluxio 非常相似的功能，也能提供内存级的缓存加速；

　　● 但场景局限于 oss 内。

　　大数据平台架构的发展趋势

　　最后，我们请专家们聊了一下大数据平台架构的发展趋势，专家们发表了以下看法：

　　1. Olap 场景是大数据平台架构整体的重点，未来的发展趋势如下：

　　如何算得更快；

　　如何存得弹性：如何做的像单机数据库，可以快速的线性扩展；

　　Olap 基于云原生的架构体系，基础系统构建 ok，无限弹性。计算资源也无限弹性。

　　2. 对象存储

　　过去 3 年，很多用户纷纷选用对象存储系统保存数据，不仅是因为其自身的价格优势，还可以减少维护的麻烦。对象存储适用的场景非常多，包括：存算分离、数据分层、多数据源分类以及应用于数据湖等等。

　　3. 云原生

　　我们知道，云原生具有很好的弹性、可拓展能力，在未来必定会越来越受到重视。结合当下发展，仍然存在一些待解决的问题：

　　云原生要考虑到分布式技术、编排、上云方式等，稳定性和上云集成是目前的挑战。目前云上不是特别稳定，需要继续观察。

　　高性能的硬件设施，例如高性能 CPU 以及超大规模的内存的结合。

　　基础架构改造提升。

　　4. 实时计算

　　实时计算仍然处于发展期，即便对于 Flink，也存在一定的提升空间。

　　专家介绍：

　　1. 张耀东：小米高级研发工程师，先前就职于百度、武汉安天从事后端和移动安全大数据平台相关研发，目前在小米大数据中台部门负责 OLAP 服务研发工作。

　　2. 祝江华：网易资深大数据工程师，现网易大数据平台离线存储组，目前主要针对 Hadoop&HDFS 集群的开发，优化及改进落地工作。有多年大数据开发，大数据平台研发经验，目前专注于分布式存储与计算工作。

　　3. 范禹辰：网易高级服务端开发工程师，2020 年加入网易工作至今，主要负责分布式数据编排系统 Alluxio 和分布式查询引擎 Impala 的开发工作。

关注我们