云计算·大数据 频道

Data和AI融合加速,TCHouse-X新一代数据智能平台带来一站式体验

  人工智能浪潮不仅带火了大模型,让算力、算法需求猛增,也让数据管理平台的底层逻辑发生根本变化。

  近日,腾讯云大数据团队发布了一款重磅产品,叫做TCHouse-X。虽然,从名称上看,该产品带有“数据仓库”的字眼,但这并不是一款传统意义上的数据仓库产品,而是一个可以支持在线分析、离线批处理、数据湖分析、机器学习和AI等业务负载的新一代数据智能平台,旨在为用户提供灵活、易用的数据管理体验,帮助更多企业打造面向未来的数据管理基础设施。

  我们需要思考的问题是,腾讯云大数据为什么要花大力气打磨TCHouse-X?在Data和AI加速融合的时间窗口,该如何看待数据处理平台底层的变化逻辑?针对业界关注的一系列问题,腾讯云副总裁黄世飞、腾讯云大数据基础产品中心总经理程彬,接受了主流媒体的采访。

  Data和AI融合带来的变革

  “随着生成式AI的快速发展,以往的大数据服务已经无法跟上时代的需求,Data和AI融合成为新时代技术跃迁的主流趋势。” 黄世飞首先从应用变化角度,介绍了腾讯云大数据推出新一代数据智能平台的初衷。

  如何理解Data和AI融合给用户带来的改变?举一个例子,一家咖啡店要想提高销售额,通常会去打广告,想办法让咖啡饮品和糕点搭配成为畅销产品,基于传统的数据处理模式,过程会很复杂。但是现在,有了智能体开发平台,一切会变得非常简单。

  在新一代技术支撑场景下,数据管理人员可以在智能体的数据库中查询销量最高的咖啡品种,可能是奥白,也可能是卡布其诺。这一过程类似于在大数据订单表中执行一个聚合查询,快速准确地锁定受欢迎的产品。

  下一步,如何找到与这款咖啡最搭配的糕点?用户可以用一个小模型进行测试,该模型可以基于历史订单数据进行训练,然后可以更智能地推荐产品,比如:找到与咖啡相得益彰的“小饼干”。有了这一全新搭配后,就可以进行下一个环节,进行广告词制作。

  为了生成更具吸引力的广告文案,不仅要询问大模型,还要结合以往支持广告词的知识库,通过在大模型平台的知识库检索相关信息,并将其与问题一同提交给大模型,然后得到一段精彩绝伦的广告文字。

  最后,为了完善广告效果,咖啡店商家需要一张更吸引人的图片,大模型根据指令,生成了一张包含推荐咖啡和饼干的精美图片。

  从数据处理的角度来看,商家在智能平台上的所有操作,既有结构化数据处理,也有非结构化数据处理,展示了大数据和知识库在业务运营中的强大能力。只需通过简单的指令,将广告内容配置到智能体中,就可以精准生成内容,使得业务流程更高效,这就是Data+AI带来的魅力。

  业务发展是推动数据平台进化的核心动力

  “从自动驾驶的业务逻辑来看,有数据的地方不一定有模型,但是在有模型的地方一定有数据。”程彬进一步解释道,大模型不仅改变了人们的日常生活,也在深刻影响着工作方式。

  当一辆自动驾驶汽车行驶在公路上,会有几个关键系统在支撑。一个是类似于激光雷达多个传感器系统,不断采集路况信息,生成数据。并且,系统通常会以毫秒、秒级别的时延不断上报采集数据,然后通过可视化、分析处理、物化视图这样的数据处理形成原始的数据源。这些数据会有多方用途:其中一个是生成训练样本,打造专业领域模型;另一个是,用于在线推理,支持与自动驾驶相关的业务决策,比如:用户在自动驾驶过程中,到底是该踩刹车还是换道,背后都有一套操作逻辑。

  值得一提的是,在上述自动驾驶场景中,再也没有传统的IT架构,我们看不到MySQL数据库,也没有IaaS、SaaS、PaaS等架构,新架构里只有数据和模型,所有的能力都在向DATA为中心的架构演变。所以,往小了说,Data+AI是开发者打开了面向未来基础设施的基本开发范式;但往大了说,Data+AI就是新质生产力的关键能力。

  再从大模型应用本身来看,从应用开发到落地,一般有两种路径:一个是通过数据不断提炼大模型,让其成为核心应用;另一个是,基于基础大模型去构建大模型应用。从第一个路径来看,之前是以模型设计为中心,但是现在主要以数据质量和语义支持为核心进行演进。第二个路径是,当我们有了一个基础模型,要思考这个模型该如何融入到各行各业。不管是哪种路径,在相当长的一段时间里,大模型都有自己的缺陷,比如在私域企业数据以及数据新鲜度上存在问题。此种背景下,构建新一代智能数据平台,就成为时代最强音。

  那么,在大模型时代,用户对于智能数据平台的需求是什么?我们可以从传统数据平台的三个重要应用场景中看到变化:一、 离线报表,这是一个固定的数据洞察能力;二、离线数据处理(ETL),需要用传统数仓分层去做数据预处理;三、实时的交互式分析。

  有了大语言模型后,自然语言处理能力得到极大提升,用户会考虑如何降低数据平台的使用门槛。例如:公司老板想查某年某月整个财务的核心指标,只需要一个自然语言描述,数据平台就能给他一个精准的数据报表。另外,企业之前处理数据的方式,要么是离线处理,要么是交互式处理,未来需要考虑把几种场景全部集中在一个平台上承载。最后,面对从结构化到非结构化的海量数据处理规模,如何高效、实时地满足数据处理需求,也需要非常多的专业技能。

  所以,总结来看,智能数据平台构建需要遵循一整套标准范式,那就是一体化、智能化、高性能和云原生。所谓一体化,是指通过全场景的计算、存储等不同能力,帮助用户简化数据挖掘过程;智能化,打造AI原生平台;高性能,在性能上追求更高、更快、更强;云原生,主要体现在极致的资源弹性层面。

TCHouse-X凭五大能力成为企业智能平台最优选择

  如前文所述,TCHouse-X是面向智能化未来的AI原生平台,它不仅支持湖仓一体,同时还支持机器学习,是一个可以外扩的平台。如果对比AWS,TCHouse-X更像是EMR+Lakehouse+SageMaker的一个统一体。

  具体而言,TCHouse-X有五大特性:

  1、 一体化。在一份数据的基础上,可以支持多种业务负载,帮助企业简化数据管理架构,提升整个数据处理和分析的效率。

  2、 灵活弹性。在云原生能力基础上做了诸多场景扩展,比如采用Serverless能力,合理规划用户资源的使用,同时可以实现秒级自动弹性伸缩能力。

  3、 极致性能。主要在存储和计算层面的优化,比如采用智能数据分布策略,帮助用户以最快、最省资源的方式获得他想要的数据,还有如何极致地压榨硬件CPU的能力。

  4、 高效实时。把数据处理想象成原油加工,根据不同企业的需求配置不同的Pipeline,包括在增量计算层面,通过物化的形式加速数据查询过程。

  5、 智能化。通过更好的交互方式帮助用户提升平台的易用性,以更简单的方式开发数据,同时基于大模型的能力把系统内部的资源利用率做到最大化。更重要的是,智能化平台还应该具备 “自动驾驶”的能力,能够自动解决实际业务问题。

  需要强调的一点是,TCHouse-X虽然刚刚发布,但其实已经在大模型AIGC、车联网数据平台等业务领域落地,为在线分析、离线数据处理、日志分析、数据科学与机器学习等场景提供了高效、稳定的数据分析支持。以腾讯会议为例,采用TCHouse-X后,其典型事件漏斗分析耗时从近百秒降低至几秒,性能最高提升近10倍。

  结论:

  总结来看,TCHouse-X智能平台的诞生并不是设计出来的,而是用出来的。从企业内外部的落地情况来看,TCHouse-X正在以其丰富的产品矩阵能力,通过不同的基础引擎,帮助用户全面降低数据处理平台的使用门槛。

0
相关文章