云计算·大数据 频道

从云上湖仓延伸到GenAI,Snowflake与Databricks三大战场过招

  Snowflake是新生代的云上数仓的主导者之一,目前已经实现了基于多个公有云架构的云上数仓服务。作为一家从数仓起家的公司,Snowflake 近年来却一直忙于拥抱数据湖,实现数据湖、数据仓库一体化。

  Databricks是属于开源Spark的商业化公司,致力于提供基于Spark的云服务,打造了Delta Lake。但是近年来Databricks却将触角扩展到传统数据仓库领域。Databricks正在打造Data Lakehouse(湖屋技术),一种新颖的数据湖仓概念,以实现湖仓一体。

  Snowflake和Databricks都是资本市场的宠儿,因为湖仓一体的发展方向,一直在缠斗。现在,由于基于语言大模型的生成式AI(GenAI)的兴起,两家又把战火延伸到了AI领域。

  Snowflake和Databricks在三个方面过招,目标是利用企业数据平台,以赢得庞大且迅速崛起的万亿美元AI / ML机会。

  将第三方和开源模型直接引入数据

  Snowflake CEO Frank Slootman曾说,为了制定人工智能战略,你必须制定数据战略。

  虽然关于下一代人工智能生产力是模型驱动还是数据驱动的持续辩论仍在继续,但是随着用例的成熟和AI开发人员工具堆栈的增多,越来越清楚的是机器学习ML模型只能与给它们提供底层数据一样好,因此数据将成为关键的差异化因素。

  Databricks和Snowflake在解决人工智能问题上目前都处于比较有利地位,最核心的原因是其各自的产品都已成为许多公司数据战略的支柱。企业拥有大量有价值的专有第一方数据,为下一代人工智能驱动的应用提供了动力。

  长期以来企业对如何在生产中利用人工智能一直争论不休,是将数据直接发送到现成的第三方模型提供商,如OpenAI、Cohere或Anthropic,还是将第三方和开源模型直接引入数据。

  但是Databricks和Snowflake都非常清楚数据所具有的引力。尽管现成的第三方模型具有规模大、训练有素等优势,但企业希望能够直接在其专有的第一方数据之上训练、微调和运行模型,而不会对性能、成本、安全性和治理等造成影响。

  然而仅靠数据访问是不够的,采用人工智能的公司还需要正确的工具来支持数据检索、集成和增强。目前市场上已出现了如Weaviate、Pinecone等矢量数据库产品,LangChain和LlamaIndex等模型代理,以及检索增强生成或RAG等技术,可以使公司能够将模型参数中的知识与外部数据语料库相结合。

  Snowflake起源于数据仓库/结构化BI分析提供商,提供了一个封闭的平台,更适合数据分析师。

  而Databricks具有开源基因,对数据科学家和数据工程师具有吸引力。Databricks最初提供“数据湖”,用于存储结构化和非结构化数据的集中式存储库,自然而然地包含更多训练AI/ML模型所需的非结构化数据。

  发展平台,使用户成为AI公司

  数据平台只有在能将原始数据转化为可操作的信息时才有价值。在过去的几年中,Databricks和Snowflake都通过整合分析、事务、结构化/非结构化、ETL、AI / ML等不同类型的云工作负载,从云数据“湖屋”提供商,转变为数据平台提供商。

  今年,两家公司的重点不再是支持新的数据类型、工作负载和格式,而是更多地构建不同的方法,操作和提取已存在于Databricks和Snowflake云数据平台中的大量专有数据。

  Databricks提供Cloud ML平台。Databricks的产品强调其平台的模块化,其中包括Unity Catalog,一个用作单层的数据目录。虽然Databricks已经在其数据湖上构建了许多数据工程(如Delta Live Tables和ETL管道的Autoloader)、科学(如MLflow)和分析(如Databricks SQL和Photon SQL运行时)模块,但最近该公司宣布了Lakehouse AI,其生成式AI模块。

  Lakehouse AI包括公司自有的矢量搜索、特征存储和服务层以及模型存储库,其中填充了Dolly、Mosaic MPT和其他开源模型,以及服务和监控层。

  Databrick不断扩大产品广度,展示了在其核心数据平台(Delta lake + Unity目录)之上构建特定工作负载的模块,并扩展到其他角色的明确策略。

  Snowflake则提供全栈数据云。一方面,Snowflake继续在Unistore的分析和运营用例之间穿梭。Snowflake将其重点放在为业务用户构建高级应用上,包括围绕Document AI(生成式AI应用)、用于企业搜索的Neeva等新产品。

  两家公司都有相同的目标,那就是成为卓越的平台,帮助每家公司都成为人工智能公司。

  Databricks计划通过其Lakehouse AI产品,构建端到端基础设施,帮助公司将数据转换为自己的ML模型,并可以利用存储在Databricks中的数据,成为关键数据的枢纽。

  专家认为,Snowflake的AI工作负载之旅比Databricks更长,Databricks期望拥有完整的ML生命周期,包括模型训练、模型微调、模型交付、及时的工程和矢量工程,不仅释放了将专有的第一方企业数据注入人工智能工作流程的竞争优势,而且还为公司提供了广泛的产品,无论人工智能市场如何发展,都可以使其受益。而Snowflake更受第三方模型的影响。

  收购兼并以增强AI能力

  虽然两家公司一开始都专注于数据角色(分析师、工程师、科学家),但现在两家公司都在进一步向上扩展,通过提供更高级别的抽象和分析功能,捕获开发人员以及非技术但高度分析的业务用户,以减少获得见解所需的时间和精力。

  这些数据平台的下一阶段增长是基于赢得开发人员的份额,包括AI开发人员(Databricks Lakehouse AI)和应用开发人员(Snowflake Unistore)。

  平台功能需要扩展,而不仅仅是允许开发人员简单地构建和训练模型;同样,开发人员拥有将模型轻松嵌入应用以支持最终用户使用所需的工具。

  在生成式AI方面,Databricks和Snowflake都开始收购之旅,以自强自能的能力。

  最近,Databricks以13亿美元收购MosiacML,以推动生成式AI产品,成为今年大模型领域最大的收购案。Databricks已经提供了一个名为Dolly的LLM,预计将在其湖屋平台中添加MosiacML的模型训练和推理功能,供企业开发生成AI应用。

  Databricks表示其开源LLM政策不变。MosiacML的模型即MPT-7B和最近发布的MPT-30B,是开源的,符合Databricks的现有政策。Dolly是在开放数据集上开发的,以满足企业控制用于开发新应用的LLM的需求,与闭环训练模型(如ChatGPT)形成鲜明对比,后者限制了商业使用。

  同样,Snowflake将以8亿美元的价格收购Streamlit。Streamlit成立于2019年并开发了同名的开源框架。单从项目角度来说,Streamlit是一个面向机器学习和数据科学团队的开源应用框架,能够让开发者在几分钟内构建出Web应用。

  收购Streamlit,填补了Snowflake平台上的一大缺失,即Snowflake拥有在云中访问和管理数据的技术,但缺乏一个原生的数据可视化部分,而这正是Streamlit所擅长的技术领域。

  另外Snowflake收购Neeva,为Data Cloud添加基于AI的生成搜索。Neeva创造了一种独特而变革性的搜索体验,利用生成式人工智能和其他创新,允许用户以新的方式查询和发现数据。

  另外,Snowflake和NVIDIA合作,企业能够利用其存储在Snowflake Data Cloud中的数据在Snowflake数据云中推进生成式AI。

  据两家公司称,借助用于开发大型语言模型(LLM)的NVIDIA NeMo平台和NVIDIA GPU加速计算,Snowflake将使企业能够使用其Snowflake账户中的数据来为高级生成AI服务制作自定义LLM,包括聊天机器人、搜索和摘要,在不移动数据的情况下自定义LLM的能力,使专有数据能够在Snowflake平台中保持完全安全和治理。

  通过集成Snowflake和NVIDIA的AI技术,客户可以快速轻松地构建、部署和管理定制应用,将生成式AI的功能带到各种用例中,可显著降低成本和延迟,同时保持其数据的安全性。

  在生成式AI引发的变革中,包括数据库、大数据等企业,都会为满足用户生成式AI需求,利用既有的数据存储与管理优势,结合大模型能力,推出新的技术与服务,以面对高达千亿、甚至万亿的AI市场。不过,这场竞技才刚刚开始。

0
相关文章