随着数据管理的飞速发展,新一代技术正在重塑我们对它的认知。为了探索当今企业影响最为深远的变革性技术或方法,DBTA邀请了行业专家和领导者来阐述他们眼中最具积极影响力的技术。以下是产生最大变革的八大领域:
1、数据即服务
数据即服务(DaaS)通过标准化服务层提供对网络内所有形式数据的访问,被一些行业领导者视为最具前景的发展方向。K2View的首席战略与市场官冯·莱特(Von Wright)表示:“为了有效利用数据获得竞争优势,我们认为企业用于组织和访问其数据的解决方案需要进行根本性的技术变革。”DaaS平台通过“快速整合不同来源的数据,并实时将其交付给任何终端用户应用程序”来推动这一变革,这对传统数据解决方案来说是一个严峻的挑战。
莱特补充道,在DaaS出现之前,大多数数据管理平台采用行和列的方式来存储信息,这导致每次用户需要访问数据时,都会产生复杂、不灵活且耗时的交易。相反,DaaS支持“基于特定业务需求而非预定义技术或结构的模型”。
2、数据治理工具
SAS产品管理总监罗恩·阿格雷斯塔(Ron Agresta)表示:“将数据准备用于高级分析将对企业的数据竞争力产生最大影响。”他解释说:“随着数据以前所未有的速度产生,人工智能和分析技术越来越深入地融入企业运营,组织必须为其数据分析师、数据科学家和数据工程师提供技术,使他们能够轻松地查找、清理和转换数据。”这需要一个“为协作和治理而构建”的环境。
阿格雷斯塔继续表示,设计精良的数据治理结构“应该具备易于使用的界面,以鼓励自助式数据准备,同时还需内置经行业验证的数据质量功能”。这样的努力“应赋予分析社区以力量,使其能够访问和使用所有数据的原始形式,并验证其分析过程”。他指出,组织文化通常对这一愿景构成挑战。“许多组织将数据视为部门资产,而非公司资产。自助式数据准备挑战了这一范式,因此促使组织转向‘人人皆享数据’而非‘少数人独享数据’的愿景。”
3、实时流处理
向实时企业的迈进也带来了新一代解决方案,这些方案旨在提高组织感知和响应机会或问题的能力。旧金山大学计算机科学教授兼SnapLogic首席科学家格雷格·本森(Greg Benson)指出,实时流处理平台如Spark和Flink的崛起,它们与Kafka等可靠的分布式消息队列结合使用。“这些技术的结合使得可靠的实时分析和机器学习应用成为可能。”
“实时流数据分析正在改变企业的竞争方式,”Logtrust的首席战略官科林·布里顿(Colin Britton)表示,“同时,它也使数据科学家到业务用户等更多用户能够轻松获取并解放数据访问权限。”但他补充道:“大多数公司仍在努力实现这一目标,因为他们使用的是遗留数据库或通过修补现有遗留系统来构建定制系统,这些解决方案部分且有限。公司不愿放弃已投入大量资金的专有技术,因此他们等待太久,错过了这波浪潮。规模和复杂性也是障碍。使用现有的很多技术很难实现扩展和实时结果。”
尽管流分析仍处于“实验阶段”,但它已证明是一种强有力的方法,可以“专注于快速检测和纠正以确保质量,从而监控、分析和对实时事件做出反应”,Sungard Availability Services的首席技术架构师Abay Radhakrishnan表示。本森警告说,实现实时数据流和分析对组织来说的主要挑战是技能短缺。“Spark和Flink通常部署在DevOps环境中,这意味着需要找到DevOps人才以及Spark和Flink的编程技能。这两者都需要一种新的解决问题的方式。”同时,他补充说,在可预见的未来,这种能力也将通过云提供商广泛提供,有助于降低技能要求。
Radhakrishnan同意目前缺乏数据科学、分析和实时应用程序编程技能方面的专业知识,这阻碍了流分析的进展。“另一个问题是确保在整个数据收集、分析、存储和目标可视化过程中,所有参与方之间的数据共享的安全性、敏感性和合规性,因为这可能涉及第三方。
“企业需要实时地对外部世界做出反应——无论是用于欺诈检测、社会情绪分析还是其他用途,”本森说。“他们需要识别大量涌入数据中的趋势,然后采取行动以改善客户体验、降低成本或实现其他利益。在这方面,Spark和Flink具有非常强大的功能。它们具有容错性,并且设计为能够扩展到非常大量的数据。Spark和Flink相似:两者都支持大规模数据的批处理计算和实时流应用。Spark倾向于批处理和交互式查询,而Flink则从一开始就被设计为一个流处理优先的平台。”
然而,布里顿预测,流分析“将很快得到更广泛的应用,因为越来越多的公司正在解锁实时数据的潜力并变得依赖它”。“它将成为数据操作的不可分割的一部分,使自动化和数据驱动的业务流程成为可能。”
4、人工智能、机器学习和深度学习
当然,没有什么比认知计算的崛起更能撼动数据领域了。“任何讨论都离不开机器学习和人工智能,”VoltDB的首席技术专家Dheeraj Remella说。“虽然机器学习为从数月或数年的数据收集中发现指标和模式提供了基础,但我认为,企业可以通过我所称的第一代人工智能来使自己与众不同:自动化决策。通过自动化已知业务规则的决策,企业可以提高效率水平。”
本·洛里亚(Ben Loria),O’Reilly的首席数据科学家表示,深度学习是“广泛采用人工智能的主要技术”。与深度学习相关的应用现已融入谷歌、微软和亚马逊等领先数据公司的平台之中,这些公司“已将深度学习引入其服务之中,并用基于深度学习的模型替代了现有的机器学习系统,这些模型包括推荐系统、搜索排名和预测功能,”他说。“最近,生成对抗网络(GANs)和循环神经网络(RNNs)——深度学习的扩展,它们正在拓宽我们利用人工智能所能做的事情的边界——备受关注。另一个重要趋势是深度学习在数据科学产品中的影响力日益扩大。”
然而,洛里亚警告说,“我们对深度学习系统的理解仍在不断发展中,这仍是一个进行中的工作。”技能问题也对技术的普及构成了挑战。“浅层次的人工智能人才库将成为深度学习和其他人工智能项目启动的巨大瓶颈,”他警告说。“LinkedIn的数据显示,目前大约有20,000名活跃的人工智能开发者,而要让深度学习在行业中取得成功,我们需要数百万名开发者。”洛里亚表示,普及人工智能和深度学习的努力将意味着更广泛的采用,并且更侧重于培训其他领域的开发者和技术专业人士,而不是招聘具有博士学位的数据科学家。“因此,我们将看到更多关于这项技术的实际应用。”
雷梅拉观察到,机器学习和决策自动化已经在具有前瞻性的企业中取得了显著的进展。他表示:“随着机器学习被纳入决策过程,自动化的成熟度正在提高。”“尽管这一特定方面在成熟度模型中仍处于初级阶段,但随着决策框架和平台的改进,这一状况将迅速改变。”
然而,雷梅拉也指出了即将出现的技能短缺问题,这可能会延迟或阻碍机器学习项目的进展。他说:“真正优秀的数据科学家的稀缺是一个挑战,而业界对数据科学能够立即使企业实现革命性变革的期望则是另一个挑战。”“这将会导致大量的失望。”
Vertica高级产品经理本·史密斯(Ben Smith)表示,一种更有针对性的机器学习形式,即数据库内机器学习,可能有助于“改变这些机器学习算法建模、训练和部署的规模和速度,消除常见障碍,并加速预测分析项目获得洞察的时间”。他说:“数据库内机器学习技术使数据科学家摆脱了传统工具的容量限制,使他们能够发现隐藏在日益庞大的数据集中的模式,包括数据湖中存储的数据。”史密斯预测,很快,“如果不是全部,大多数组织将利用他们数据量的全部广度和大小来开发和部署机器学习应用——不再依赖降采样数据和缓慢的计算。”
5、增强智能——另一种AI
另一种AI——增强智能也正在成为主流分析平台的一部分,并有助于解决人工智能开发中所面临的技术人才不足问题。Qlik的战略营销高级副总裁詹姆斯·费希尔(James Fisher)指出:“限制数字化转型计划的一个主要因素是员工的数据素养——更有效地读取、处理、分析和论证数据的能力。融合了增强智能的分析平台有助于弥补这一差距,并将改变企业利用数据进行竞争的方式。增强智能将人类直觉的力量与机器智能和人工智能相结合,根据用户的意图扩展用户洞察力的范围。用户与数据互动得越多,分析平台就能学习并建议数据源之间的关联,生成图表和可视化图表,揭示尚未被发掘的增长和生产力的机会。”
6、容器
容器——应用程序、数据、依赖项和运行时都封装在一个可移植的环境中——“目前对企业在数据上竞争的能力产生了最积极的影响”,Talend的首席技术官劳伦特·布里德(Laurent Bride)观察到。“它们无处不在地投入生产。它们通过自动化流程和跨集群部署,使企业能够更轻松地在云端扩展并加快创新步伐。”随着容器编排的兴起和Kubernetes等解决方案的出现,容器化在优化存储、安全性和网络方面将具有高度的战略意义。
不过,劳伦特补充说,容器的学习和采用还存在一定的曲线,因为“在理解基础设施状态时,会出现抽象的复杂性”。“此外,云提供商之间也存在细微的差异,因此跨云部署容器并不像公司所希望的那样无缝。”
7、开放标准(尤其是JSON)
近年来标准化的兴起使组织能够利用一系列数据技术和数据库类型来满足其需求。特别是JSON(JavaScript对象表示法),这是一种轻量级的数据交换格式,既方便人类阅读也便于机器处理。Couchbase产品管理总监Sachin Smotra表示,近年来,这一标准“已经成为企业应用程序的主要对象模型,为迅速发展的应用程序提供了所需的灵活性”。Smotra特别指出,NoSQL运动能够“利用JSON日益增长的普及度,创建了一种新型数据库,可以原生地存储JSON数据并提供模式灵活性”。
目前,Smotra观察到,“JSON对象模型正在企业中得到广泛应用,不仅用于构建新应用程序,也用于现有应用程序的现代化”。JSON需要解决的一个挑战是,“传统的数据管理方法正在受到冲击,这要求40多年前为关系型技术构建的核心生态系统发生变革。JSON缺乏模式既是优点也是缺点。应用程序和相关数据模型的演变需要操作纪律、新的应用程序管理方法以及支持这种新思维方式的流程。”
8、多模型数据管理
随着如今大量数据在企业中流动,需要能够从多个角度查看和利用这些数据。这催生了新一代多模型数据管理技术。InterSystems产品管理总监Jeff Fried表示:“这些系统使组织能够在同一系统中从多个角度查看其数据,帮助它们利用这些数据做出更有战略性的决策,以应对竞争威胁、抓住市场机会和提供客户服务。多模型技术还解决了生成的大量且种类繁多的数据问题,使组织能够灵活、快速地使用所有必需的数据集和数据类型,以在业务环境中保持竞争力。”
虽然多模型数据管理并非新概念,但近年来其采用率显著增加,Fried观察到:“随着技术从实验阶段进入主流市场,我们现在看到其采用率显著上升。”他补充说,挑战在于突破“既定的思维方式和旧有的文化。模型和单模型数据库层出不穷。告诉数据库管理员他们可以跨模型查看数据,并以高性能的方式用不同方式表达相同的数据,这与他们最喜爱的数据库工具的定位相悖。”
然而,随着认知计算和实时分析的兴起,数据管理者正认识到多模型数据的必要性。Fried预测:“采用多语言持久性的组织将开始质疑其性能和实用性。这将推动多模型能力跨越鸿沟,进入早期主流。信息的增加反过来将推动机器学习和认知计算的崛起。”