Snowflake 在云统一数据分析能力构建上再上新台阶!
今天,Snowflake 正式推出 Snowpark Connect for Apache Spark 预览版,这意味着该公司在统一数据分析平台道路上迈出关键一步。新功能旨在通过将 Apache Spark 分析工作负载直接迁移到 Snowflake 数据云内部运行,可显著降低延迟,简化原来在架构上的复杂性,并从整体上提升分析效率。
从“桥接”到“融合”
传统上,企业若需在 Snowflake 中使用 Apache Spark,通常依赖 Snowflake Connector for Spark——一种允许 Spark 集群与 Snowflake 数据库之间进行数据交换的连接器。然而,这种模式本质上是“桥接”,Spark 作业仍在 Snowflake 外部运行,导致频繁的数据移动,带来延迟、带宽成本增加以及资源管理的复杂性。
相比之下,Snowpark Connect for Apache Spark 实现了根本性转变。正如行业分析师形象比喻的:“如果说传统连接器是连接两座城市的桥梁,Snowpark Connect 则是将整个 Spark 城市直接迁移到 Snowflake 之中。” 这意味着 Spark 代码无需迁移数据即可直接在 Snowflake 的数据所在位置执行。
基于 Spark Connect 的革新
Snowpark Connect 的实现依托于 Apache Spark 3.4 版本引入的 Spark Connect 技术。该技术允许用户的客户端应用(如 Python 脚本或 Jupyter Notebook)与远程 Spark 集群解耦。用户提交的不再是执行代码,而是未解析的逻辑执行计划。该计划被发送至 Snowflake 内部的远程 Spark 集群,由其在 Snowflake 的矢量化执行引擎上完成所有计算任务,并将最终结果返回给客户端。
Snowflake 在其官方博客中解释道:“你的应用程序只需发送逻辑计划,集群完成所有繁重的工作并发回结果。”
为企业带来的价值
简化架构与降低成本:企业不再需要在外部维护和管理独立的 Apache Spark 集群,消除了相关的基础设施开销和运维复杂性。
1)提升性能。通过在数据本地执行计算(Data Locality),避免了跨网络的数据传输,结合 Snowflake 自身的矢量化引擎,可实现更快的处理速度。
2)降低总拥有成本 (TCO)。分析师 Sanjeev Mohan(SanjMo)指出,Snowpark Connect 结合了开发者熟悉的 Spark 编程体验与 Snowflake 平台的易用性和无服务器架构优势,无需手动调优 Spark 配置,有效降低了开发和运维成本。
3)缓解人才挑战。企业不再高度依赖稀缺的 Spark 专家,因为 Snowflake 的无服务器引擎承担了底层资源管理和优化工作。
4)无缝迁移。Snowflake 强调,从现有的 Snowflake Connector for Spark 迁移到 Snowpark Connect 可以在不修改任何现有 Spark 代码的情况下完成,极大降低了升级门槛。
行业背景与竞争格局
随着人工智能和机器学习应用的普及,企业对简化数据基础设施、降低延迟和成本的需求日益迫切。Everest Group 高级分析师 Shubham Yadav 认为,Snowflake 此举“恰逢其时”,顺应了市场对一体化、高效分析平台的期待。
值得注意的是,这一领域并非没有竞争者。Databricks 已通过其 Databricks Connect 产品提供了类似的功能,允许外部客户端连接到 Databricks Lakehouse 平台执行 Spark 作业。Snowpark Connect 的推出,使得 Snowflake 在与 Databricks 等主要竞争对手的平台能力竞争中,进一步增强了实力。
当前状态与展望
目前,Snowpark Connect for Apache Spark 已进入公共预览阶段,支持与 Apache Spark 3.5 版本协同工作。这为开发者和企业提供了早期试用和反馈的机会。
整体来看,Snowpark Connect 的新功能更新,不仅是一项技术升级,更是 Snowflake 构建统一数据与分析云愿景的重要体现。该公司通过消除数据移动壁垒,让开发者能够更高效、更低成本地利用熟悉的 Spark 工具在 Snowflake 平台上进行大规模数据分析,有望重塑企业数据处理的范式。