云计算·大数据 频道

2024年度IT168技术卓越奖名单:云计算类

  创新解决方案奖:金山云基于serverless无服务计算进行LLM预训练数据集数据清洗

  一句话点评:金山云迅速洞察到了用户需求和痛点,为用户提供了基于serverless无服务计算平台进行大规模大语言模型预训练数据集清洗方案。

  ▲创新解决方案奖:基于serverless无服务计算进行LLM预训练数据集数据清洗

  简介:

  目前大语言模型厂商急需海量数据集进行数据清洗,利用生成数据集进行模型的预训练。这过程中用户需要面临算力,存储,系统平台运维等各项挑战。该方案主要包含算力平台和对象存储两大部分,基于存算分离架构为用户提供了弹性灵活以及低成本的使用体验。算力平台侧为用户提供了serverless spark 和 serverless ray两种分布式计算框架。

  获奖理由:

  Serverless架构本身具备使用门槛低,0运维,按量付费等优势。结合spark和ray为用户

  提供大规模分布式的计算和推理能力。平台可以应对批处理、流处理、图计算等计算场景,性能更好,延时更底,特别是在GPU结合CPU异构的计算场景下,有效的提升了资源利用率进一步为用户减低成本。针对文本以及多模态清洗的特点,算力平台提供了不同CU的配置,同时提供了统一的入口为用户提供了一致的使用体验。面对海量数据的存取,方案基于金山云可靠的对象存储KS3,为存算分离用户提供了高带宽,高QPS,有效的结合算力平台完成大规模数据清洗任务。目前该方案已经为多个大预言模型厂商提供数据清洗服务,总清洗数据量超过百PB。

4
相关文章