导读:为什么在云原生世界中,我们已经自动化了对这么多底层硬件复杂性的管理,所以存储仍然如此痛苦?原因是两个词:数据孤岛。
如果您已经在使用Kubernetes了,则可能有一个简单的原因:它使您的生活更轻松。毕竟,这是基于容器编排的整个前提。它让基础设施变得可支配,在需要时将其旋转,完成后将其丢弃,因此您不必考虑太多。至少,这就是应该起作用的方式。
如你所知,如果你已经建立起一个依赖于持久性数据的工作,你会马上遇到一个大问题——存储。
尽管Kubernetes完全抽象了计算和网络基础架构,但是当您的应用程序是有状态的并且数据是持久的时,它需要合适的方式进行存储。您仍必须了解底层存储基础架构的全部知识,才能找到所需数据的方式。
不仅是数据的位置,还有其他类型的存储基础结构附带的所有其他细粒度的考虑因素(性能,保护,弹性,数据治理和成本),大多数数据科学家都不想考虑。
为什么在云原生世界中,我们已经自动化了对这么多底层硬件复杂性的管理,所以存储仍然如此痛苦?原因是两个词:数据孤岛。
只要我们继续通过其赖以生存的不同基础架构来管理数据,而不是只关注数据本身,我们将不可避免地最终要花费大量的存储孤岛。幸运的是,这不是一个棘手的问题。通过将我们对数据管理的思考方式从以基础架构为中心的方法转变为以数据为中心的方法,我们可以使用Kubernetes首先给我们提供承诺:制作存储SEP(Someone Else‘s Problem)。
当您需要的数据散布在不同的存储孤岛上时,每个存储孤岛都有自己的独特属性(“或”或“云”,“本地”,“对象”,“高性能”等),根本无法抽象出基础架构注意事项。仍然有人必须回答所有有关性能,成本和数据治理的问题,才能建立您的管道。(如果该人是您要寻求帮助的IT管理员,您可以打赌他们每次在您的名字上出现您的名字时都会畏缩。因为他们知道他们将花费大量时间在神秘的基础结构接口上来破坏您的数据跨所有不同的副本和数据存储,而且他们根本无法在午餐前完成任务。
摆脱这种头痛的唯一方法-真正实现Kubernetes应该为您提供的速度和简便性的唯一方法-是虚拟化数据。基本上,您需要在数据和所有各种存储基础架构之间建立一个智能抽象层。该抽象层应该使您可以在任何地方查看和访问数据,而不必担心给定的基础架构是否具有适合您正在执行的操作的成本,位置或治理,也不必不断创建新副本。
做到这一点并不像听起来那么困难。关键:元数据。当您可以将所有数据需求,上下文或沿袭注意事项编码为随处可见数据的元数据时,那么在任何给定时刻驻留在哪个基础结构数据上就不再重要。现在,当您建立数据管道时,您可以完全使用元数据。而且您的虚拟化层可以使用AI / ML为您自动处理所有基础数据管理和基础结构注意事项。
一旦建立了虚拟化层,并通过元数据进行数据管理,就可以执行以前无法完成的各种事情。
1.消除数据孤岛:现在,您需要的数据位于哪个基础架构上或该基础架构位于什么位置都无所谓。对于您的应用程序,所有那些以前孤立的存储资源(本地,云,混合,归档)看起来就像一个通用的全局名称空间。
2.以编程方式访问存储资源:由于您在处理元数据(而不是一堆不同的底层硬件基础结构),因此您现在可以设置管道并通过声明性语句访问数据:我需要具有这种性能的数据,仅此而已真的很在乎。然后,智能虚拟化层就可以实现并实现,而您的应用程序(或您负担过重的IT管理员)则无需确切说明操作方法。
3.使数据管理实现自助服务:数据科学家无需担心比较不同存储类型的成本,启用数据保护或确保每次建立管道时都满足安全性和合规性要求。(因此,您的IT和安全团队可能也不希望数据科学家做出这些选择-除非他们希望所有内容都在最昂贵的存储上运行且没有适当的遵从性。)一旦将元数据和数据的管理分开,所有消失了。存储管理员可以通过配置一次基本策略来设置防护栏。然后,用户可以从此开始自助满足其大多数数据管理需求,而无需打开票证,并且不会在每次建立管道时手动进行这些调用时出现错误。
4.不断丰富您的数据:当系统支持可自定义的,可扩展的元数据时,您现在可以进行各种有趣的事情。例如,您可以构建递归流程,在其中通过系统运行数据,获取一些结果,将这些结果添加回元数据,然后再次运行作业。您可以开始对数据周围的数据建立深入的上下文理解。处理和使用的数据越多,将来用于其他作业的数据就越丰富。而且,对于要使用它的任何其他应用程序或数据科学家来说,现在,智能总是随处可见。它并不局限于一个副本,而是藏在某个地方的一个存储孤岛上。
当您虚拟化数据时,所有这些事情都是可能的,因为与孤立的存储基础架构相比,元数据的使用更加灵活。设置和编排数据管道所伴随的存储注意事项现在可以为您解决。您的存储资源将变为可编程的,自助服务的并且自动合规,通常不需要手动干预。
突然之间,您实际上生活在这样一个现实,即Kubernetes和软件定义的存储始终应该交付。无论基础架构如何,存储都是软件定义的,可编程的并且在混合云环境中保持一致。您的数据更丰富,更灵活。您的IT团队不再将ID卡上的爆炸照片留在墙上扔镖。最重要的是,您实际上在处理数据上花费了更多时间,而不用担心数据的存放位置。