随着AIGC的爆火,数据量呈指数级增长,数据湖存储成为刚需。数据湖存储以对象存储为核心,优势是高弹性、低成本,可以存储任意规模的异构数据。但在大量文件读写场景下,对象存储也会面临一些挑战,比如:时延高、存储资源利用率低或者元数据访问慢等,所以腾讯云GooseFS分布式缓存产品应运而生,旨在解决对象存储数据访问速度问题。
AIGC浪潮带来的对象存储挑战
准确来说,GooseFS是腾讯云推出的多协议、高性能、大吞吐的数据缓存加速服务,在数据湖生态中扮演着“上承计算,下启存储”的关键作用。经过一年多时间的打磨,GooseFS在技术能力上已经得到业界高度认可。前不久,NAS2024大会公布了今年论文收录的情况,腾讯云对象存储就加速对象存储访问提出的技术方案成功入选,论文标题是《GooseFS:分布式缓存服务以提高云对象存储性能》。
单从缓存加速发展现状来看,业内有两大维度的企业在发力。一个是以腾讯云为代表的云计算大厂;另一类是开源或者初创企业。大体来看,每家厂商都在做自己的缓存加高性能文件系统方案,把缓存和容量两个产品形态组合起来。
至于,腾讯云GooseFS为什么重要?背后有哪些比较前沿的设计原理?腾讯云存储产品总经理陈峥、腾讯云存储资深专家程力,接受了主流媒体的采访!
在大数据场景下,海量数据一直存在,但过去的大数据只管存,很少被真正使用。现在,在AIGC浪潮的推动下,大模型和智驾应用场景增多,使得高频率、高速度、大带宽的实时读写需求猛增。此种背景下,存储系统也要满足快速读写需求。但在数据湖存储中,通常会遇到三个问题:一、原生对象存储I/O比较慢,写入、读取时延比较高;二、数据写入和读取吞吐相对比较低;三、元数据操作比较慢,比如:一个目录下有多少文件,每个文件的写入时间、读取时间是什么,在获取数据的概括性描述时,存储性能表现一般。
三大关键设计为数据湖存储提速
为了解决上述问题,腾讯云GooseFS在之前对象存储基础上,对计算端、存储端和元数据引擎上,引入3个关键设计:
1、计算端:通过多级缓存调度能力实现计算对数据的就近访问,降低延迟。
2、存储端:用软件的方式有效利用高性能磁盘,以分布式缓存池的方式提升跨节点访问的吞吐能力,弥补了由于计算端缓存容量不足带来的命中率下降的问题。
3、元数据引擎:通过自研高性能元数据引擎提升元数据读写性能,在元数据分级管理、强一致性缓存和平行扩展等技术手段支持下,很多重复路径查找操作会优化成一次性的查询,大幅提升了元数据处理效率。
结果显示,相比原生对象存储,腾讯云GooseFS性能吞吐提升8-10倍,存储带宽消耗降低90%,缓存命中率已经接近95%。目前,蔚来、博世、百川、高途、燃数、酷狗等领先企业都在使用腾讯云GooseFS。
结论:
总结来看,腾讯云GooseFS能获得业界的高度认可,得益于一系列自研的数据工程化能力创新。比如:整个架构及网络框架都是腾讯云自研,同时还引入了先进的缓存淘汰算法,让缓存管理更高效。值得一提的是,腾讯云GooseFS的核心能力是能以更强大的能力识别热数据,为了确保热数据达到高缓存命中效果,腾讯云还自研了很多与大数据表分区有关的一些感知技术,可以对接大数据关键组件,把最热的数据留在了缓存。