云计算·大数据 频道

人工智能时代为什么需要重新思考存算分离架构?

  当人工智能正在以在前所未有的速度重塑企业的基础设施和工作负载,传统业务架构显然无法跟得上时代的发展,这是存算分离架构必须要进化的根本原因。

  回顾过去十多年的发展,云架构的核心构建模式一直以存储与计算分离为核心,很多人把这一架构看作是企业IT最优雅的选择。其中,存储是仓库,只管存放数据;计算是工厂,只管处理数据。两者独立扩展,互不干扰。面对传统分析工作负载——那些结构化的表格数据、按固定时间表运行的批量作业——这套模式表现得堪称完美。

  传统云架构的弊端凸显

  但AI来了,然后把一切都打乱了。

  现代AI管道处理的不是整洁的表格行,而是海量的非结构化和多模态数据:图像、视频、音频、文本、传感器数据……这些数据在被模型吃掉之前,需要经历清洗、转换、嵌入、向量化、元数据提取等一系列复杂操作。

  更致命的是,同一份数据被反复触碰:训练时读一遍,做转换;推理时再读一遍,重新调整;测试验证再读一遍,又一次处理……每一次读取,都伴随着完整的数据传输和转换成本。每一次重复,都在燃烧GPU的等待时间和云账单上的数字。

  数据科学家们有个心照不宣的秘密:他们高达80%的时间消耗在数据准备和整理上,而非建立模型或提升性能。这意味着,AI项目的大部分投入,实际上被浪费在了“把数据喂给算法”这个环节,而不是“让算法变聪明”。

  被动存储,成为AI瓶颈

  传统算存分离架构为什么在AI时代变得如此低效?问题的根源在于,传统架构中的存储系统被设计成被动的。

  它只是一个沉默的仓库,等待计算层来取数据。它不参与数据的组织、转换、优化——这些工作全部留给计算层。当AI工作负载需要反复处理同一份数据时,这个被动角色就变成了效率黑洞:1)数据必须从存储移动到计算;2)移动后必须重新转换;3)转换后用完即弃;4)下一次,从头再来。

  这种模式在数据量小的时候尚可忍受,但当数据达到PB级、EB级时,数据传输成本开始吞噬一切。

  智能存储:把计算带到数据所在之处

  行业经济学正在给出明确的信号:传统存储中的海量数据大多只是成本中心,而当这些数据与计算能力结合时,其价值会呈指数级增长。

  数据本身没有改变,改变的是计算的存在。这种思路指向一个根本性的范式转移,那就是与其将数据移动到能够捕获价值的地方,不如将计算带到数据所在之处,这也是“智能存储”的核心思想。

  换个思路理解,智能存储不再是沉默的仓库,而是一个主动的数据平台,当数据准备在存储层完成,一次准备,多次使用,给企业带来的性能与经济效益,可以说是立竿见影。

  1、性能表现上

  首先,转换、向量化、元数据提取等操作直接将业务处理下推到数据所在处;

  其次,存储系统自己维护数据的优化表示,随时供下游调用;

  其三,GPU不再等待I/O,而是直接取用已经就绪的数据。

  在这种模式下,数据从被动的记录,转变为不断被理解、丰富和优化的活跃资产。

  2、经济效应上

  智能存储带来的性能提升是显著的:

  数据管道速度大幅提升——数据已经预先准备,无需重复传输

  硬件生产力得以保持——GPU在冗余I/O上等待的时间减少

  重复成本逐渐消失——数据只准备一次,所有工作流共享成果

  当行业开始关注加速数据管道中的各个步骤时,效率的衡量标准已经发生了变化。如今,效率不再取决于从现有架构中榨取边际收益,而是由能否构建新架构来决定——那些确保数据无需重复准备、过度移动或浪费计算资源的架构。

  写在最后

  毫无疑问,将存储和计算分离的架构决策,在十年前无疑是正确的云发展路径。但面向未来,基础设施的AI化是企业IT发展的必然趋势,AI工作负载从根本上改变了数据的经济学,也暴露了过去存算分离方法的局限性。笔者曾目睹太多企业因这一限制导致AI项目搁浅。相信,随着AI的快速挺近,下一代基础设施的关键能力非常明显,那就是如何更好、更智能地将存储和计算结合在一起。成功的企业将是那些率先拥抱“智能存储”的组织。它们将不再被重复的数据准备所拖累,不再被低效的I/O所制约,而是让数据直接服务于智能。

  用一句话总结,在这个AI定义一切的时代,存储不再是瓶颈,而是引擎。

0
相关文章