云计算·大数据 频道

与大模型共进化,腾讯云对象存储COS铸就数据“炼丹炉”

  AIGC时代,每家企业都在大模型战场跑马圈地。然而,大模型训练就像“炼丹”,不仅需要更强大的计算、网络支撑,更考验底层的存储。为了确保大模型能够高效处理数据,底层的存储也在进行重构,经历凤凰涅槃的过程。

  前不久,腾讯云正式宣布,云存储解决方案全面升级。腾讯云对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等产品形成组合拳,打造出国内首个实现存储引擎全面自研的云存储解决方案。基于腾讯云AIGC云存储解决方案,用户在大模型数据采集、清洗、训练、推理和数据治理全流程中,可获得全面、高效的云存储支持。

  至于,升级之后的云存储解决方案,到底有多高效?腾讯云给出了一个数据,“可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半”!

  大模型参数指数级增长背后的存储变化

  “AIGC蓬勃发展,ChatGPT、Sora等标志性应用表现出来的能力让人震惊,从10亿到1.8万参数量,大模型的参数正呈指数级增长。”腾讯云存储总经理 马文霜先生(马大师)分析道,模型参数不断变化背后,算力与网络的进步肉眼可见。算力层面,已经从H100升级到了H200,训练性能提升了5倍。网路层面,已从之前的25G的网络发展到50G、100G,甚至是200G,网络带宽提升了6倍。而与之相对应的是,网络延迟降低了60%。

  腾讯云深刻地意识到,随着大模型参数的不断增长,只在算力、网络层面进行技术迭代,依然无法解决大模型在落地应用过程中的延迟问题。作为基础设施层面的三大能力之一,存储也必须快步赶上,才能满足对应的AIGC场景需求。

  很明显,对存储能力需求升级,会覆盖到AIGC的整个流程,涉及数据采集、清洗、训练和应用不同阶段。其中,数据采集阶段,需要的是一个大容量、低成本、高可靠的一个数据存储底座,才能确保数据快速接入;数据清洗阶段,需要存储提供多协议的支持(比如:即支持标准的S3,又要支持HDFS),才能和大数据生态结合,进行大数据清洗;数据模型训练阶段,需要TB级的写带宽存储,来保证大模型在训练过程中把Checkpoint快速保存,进而为连续的训练和提升CPU的有效使用时长提供全面保障;应用阶段,需要存储提供比较丰富的数据审核能力,来满足鉴黄鉴暴的安全合规的诉求,保证大模型生成的内容是在合法、合规的情况下去使用。

  面对数据全生命周期的存储需求,腾讯云推出了自研的对象存储引擎YottaStore,该引擎在数据接入层有非常领先的弹性接入集群能力,支持不同运营商、不同线路的公网接入节点,可提供丰富的流量均衡策略。YottaStore提供了原生的多可用区的特性,可以提供很好的容灾能力,在数据可靠性方面超过了12个9的高可靠性。基于YottaStore的对象存储COS,还为用户提供了高可用的数据湖服务,可以让采集的原始数据便捷入湖。

  在数据清洗环节,由于数据是存在PB级甚至EB级的对象存储COS数据湖里,有诸多的应用工具以及大数据组件可以选择,包括会在算力上有更完美的支持,还会覆盖到开源的生态。基于数据加速器GooseFS,整个数据湖具备了多级缓存的能力,可以把训练的数据预加载到离GPU更近的内存和本地存储里面,缩短访问路径,让访问延迟到几个毫秒甚至是亚毫秒级,而吞吐会提升到TB级,让单次清洗任务耗时减少一半。

  在模型训练层面,大模型的训练通常会达到千万节点,每一个节点它都需要保存Checkpoint,这就对文件存储的写吞吐提出了较高要求。为了具备更强大的横向扩展能力,腾讯云将CFS Turbo的读写吞吐从100GB提升到一个TB,让5000卡训练的Checkpoint写入耗时缩短到10秒内,时间是降低了90%,最终让大模型的训练效率大幅提升。

  CFS Turbo能够提供TB级的吞吐、百万级的OPS和亚毫秒级的时延,背后技术是腾讯云自研的并行文件存储引擎Histor。Histor不仅提供了TB级的聚合吞吐,单个GPU的节点可以跟所有的存储节点进行通信,支持并行数据访问,同时单个客户端的能力可以达到10个GB。

  为了始终做到亚毫秒级的访问延迟,腾讯云还会通过SBDK、RDMA等技术去不断优化数据访问延迟,不断缩短IO路径。

  针对数据应用层面,AI生成内容的审核以及合规应用是新挑战,数据万象这个产品就是腾讯云为用户打造的一站式内容治理服务平台,它可以对AI生成的内容进行一站式管理。数据万象给用户带来的体验是,不仅审核的准确率高,还可以基于存储节点的混布来就近处理,降低审核的延迟,提升终端用户的使用体验。

  核心存储产品在技术架构上的演进

  如果说大模型训练是“炼丹”,文件存储主要解决数据的输入输出问题。

  针对文件存储在大模型训练中发挥的作用,腾讯云文件存储总监 陆志刚举了一个例子,比如:从互联网上抓取的网页和一些PDF书籍的文档,输出的就是一个模型文件,这个模型可以用来做推理,给用户去输入一些问题让它去做回答。在整个训练过程中,对小文件的OPS和大文件的吞吐都有比较高的要求,而支撑各种文件的关键基础设施能力就是文件存储。

  当GPU的集群比较大,比如:几千台或者是上万卡的规模,在做文件喂入的时候,要尽快完成,否则整个GPU的集群就必须暂停下来。对于存储来说,首先需要一个远端可以访问的文件存储,单机10TB级别的容量(单盘)远远不够,要满足客户的小样本文件和Checkpoint文件存储需求,一般是10PB级别,因而需要一个后端的存储集群来提供服务。

  换言之,在大模型场景下,存储层面需要几个关键的技术能力。

  第一,需要一个并行的客户端。相对于传统NFS文件系统单流能力,大模型需要提供的是并行的多流的文件IO能力,这样就可以满足单客户端超高的读写吞吐以及超大文件速度的瓶颈。

  第二,需要强一致的缓存。内存速度大概是100纳秒这种级别,最快SSD硬盘也只能达到100微秒级别,速度相差1000倍。所以,要充分利用缓存的能力,读从缓存里面读,写写入缓存,可以极大降低缓存,进而提升带宽。用缓存,就需要用分布式的锁来保证数据的一致性。

  第三,需要后端的服务集群提供分布式的服务。这样的话,可以在容量不足或者性能不足的情况下,能够做一些横向扩展,做到线性的提升。

  从存储升级后的表现来看,CFS Turbo就是具备上述三种技术能力的分布式并行文件存储。相比于传统的文件系统而言,CFS Turbo进是基于云上架构进行升级,全部构建在标准腾讯云的CVM虚拟、VPC网络和CBS云盘之上,可以充分利用云上的高弹性和高可靠的优势,这也是腾讯云运营100万台级别物理服务器经验的一个沉淀和积累。

  CFS Turbo是全分布式并行的架构,可以看到数据链路和元数据链路,做到性能的线性扩展,避免单节点瓶颈的问题。而基于字节粒度的分布式锁,可以实现强一致、高可用目标,同时主动规避隐患,急速恢复异常。另外,在弹性扩展能力上,可以自动做到秒级的扩容,还有数据分层和多协议的支持。

  从大模型的训练到应用,如何有效收集存储处理数据,不仅需要一个文件存储,还需要一个功能全面、高性价比的存储底座。腾讯云自研了多模态的检索引擎,能够对全媒体的特征进行提取,包括图片、视频、文本、图像、文档等等,保持95%以上的召回率。

  卓越的性能表现,源自腾讯云自主研发的存储引擎与自研技术,腾讯云自研的分布式对象存储引擎YottaStore,支持任意多副本及纠删码冗余模式并存,在大幅提升可用性、可靠性及性能的同时大幅降低成本。基于YottaStore,腾讯云对象存储服务COS作为统一的数据存储池,支持单集群1万台服务器,单集群百EB级的存储。

  腾讯云能够提供百万级的IOPS能力,核心优势在于能够并行地去扩展一些底层节点,满足海量请求的负载均衡需求。另外,可以提供一些高效的并行模型,优化整个内存分配,减少一些需求的积压,从而整体做到对计算性能的保障。

  总之,腾讯云存储面向AIGC时代的升级,不只是一次简单的产品迭代,而是实现了存储与大模型的共进化,为整个行业的发展带来了全新视角,打开了新的思路。

0
相关文章