数字化时代,很多人都在提“数智融合”概念,“数”是指大数据,“智”是指AI、机器学习,最终实践都是在云中进行。至于,为什么要进行数与智的融合?数智融合能为用户带来哪些价值?
答案是,现代化业务环境需要重塑数据洞察力,而将数据(大数据技术)和智能(机器学习技术)进行融合和统一,可以打破数据孤岛,实现商业价值提升!
数据分析和机器学习融合面临挑战
▲亚马逊云科技大中华区产品部总经理 陈晓建
“围绕数智融合构建和实施项目,可以让数据在数与智之间无缝流转,推动企业数字化转型迈向更高阶段。”在亚马逊云科技大中华区产品部总经理 陈晓建 看来,虽然数据已经成为企业最重要的资产,但数据价值并没有充分利用,所以越来越多的企业希望成为数据驱动型组织,通过融合大数据和机器学习能力来提升业务产出。
为了满足业务发展需求,有越来越多的公司从组织架构层面进行调整,把原来分散在各个部门的机器学习实践进行整合,并与大数据项目进行统一协调和资源配置。但现实情况是,仅依靠传统的大数据技术,无法全方位提供充足的数据见解,需要机器学习的模型能力的补充。
从战略目标实现的角度看,如何通过技术创新实现数、智统一与融合目标?企业开始补充人员与技术的支撑!
在人员能力层面,企业要求把原有大数据实践者,或者掌握机器学习技术的人员,应用到大数据具体项目中去,或承接新的机器学习相关的项目需求;同时,机器学习从业者也要掌握大数据处理能力,要能更好、更便捷地完成模型所需的数据准备和加工。而在工具支撑层面,企业要面向大数据技术和机器学习构建统一的开发平台和基础技术能力,包括对已有大数据平台进行改造,增加机器学习相关场景和能力,或是完全推倒,重新构建一个面向两者的通用的平台。
撇开大数据和机器学习背后各种技术不谈,只从用户需求角度看,二者融合是必然发展趋势。但从实际技术发展来看,大数据和机器学习其实走的是完全不同的道路。大数据技术的侧重点在于怎么完成海量数据的采集、清洗、查询等功能,但机器学习则更看重算法本身的优化。
大体来看,大数据和机器学习融合存在三大挑战:
第一,数据和机器学习分而治之,数据及技术孤岛制约敏捷迭代。
第二,数据处理能力不足。在生产制造企业,希望通过机器学习帮助客户对产品售后维修需求进行预测,由被动响应变为主动规划。但由于不具备足够的大数据处理能力,模型开发成功后 ,不能有效收集处理海量的运营数据,致使预测不准确,无法达到预期业务目标。
第三,据分析人员参与度低。很多模型在实验环节效果良好,但实际使用中却不尽人意,这是因为实验环境只是对真实环境的简单模拟,生产环境要复杂得多,导致实验模型无法应用于生产。
如何满足深度融合需求?亚马逊云科技的观点是,企业在云中要打造统一的数据基础底座,实现大数据和机器学习的“双剑合璧”,为企业发展提供创新引擎,这是实现数智融合最有效途径。
在云中构建统一的基础底座
亚马逊云科技大中华区产品部技术专家团队总监 王晓野 认为,在企业业务现代化进程中,需要的不是单一的产品,而是灵活、开放的架构。
要想获得可扩展、安全可靠的数据服务,构建可高效分析的数据分析引擎,以及通过更便利AI的工具,为企业提供极致的性能,必须采用有效的技术路径。首先,要建立统一融合的治理底座,包括数据质量、数据权限、数据开发、数据工作流、可视化等能力。其次,在大数据和机器学习之间,好形成高效充分的双向互动,互为支撑,互为因果,形成正向循环。
具体而言,亚马逊云科技“云、数、智三位一体”服务不仅满足技术融合趋势,还能带来更多组合优势。
首先,构建云中统一的数据治理底座,打破数据及技能孤岛。
企业可采用Amazon Lake Formation推出的诸多新功能,实现数据网格跨部门的数据资产共享,以及基于单元格的最细粒度的权限控制机制。其中,Amazon SageMaker Studio可一站式地完成数据开发、模型开发及相关的生产任务,该服务基于多种专门构建的服务,如交互式查询服务Amazon Athena、云上大数据平台Amazon Elastic MapReduce (Amazon EMR)、云数据仓库服务Amazon Redshift、Amazon SageMaker等,为大数据和机器学习提供统一的开发平台。
其次,由机器学习实验转为实践,提供生产级别的数据处理能力。
机器学习项目成功的关键是对复杂的数据进行加工和准备,亚马逊云科技提供多种灵活可扩展、专门构建的大数据服务,帮助客户把机器学习推向业务实践中。
其中,Amazon Athena能够对支持多种开源框架的大数据平台,包括Amazon EMR、高性能关系数据库Amazon Aurora、NoSQL数据库服务Amazon DynamoDB、Amazon Redshift等多种数据源,对这些数据源进行联邦查询,快速完成机器学习建模的数据加工。 以Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 为代表的无服务器分析能力,可以让客户无需配置、扩展或管理底层基础设施,即可轻松地处理任何规模的数据,为机器学习项目提供兼具性能和成本效益的特征数据准备。
其三,让数据分析智能化,为业务创新赋能。
亚马逊云科技一直通过智能数据分析服务,赋能业务人员进行智能分析、模型效果验证以及自主式创新。例如,在日常分析工具中集成机器学习模型预测能力,其中深度集成机器学习Amazon SageMaker模型预测能力的Amazon QuickSight 、在分析结果中添加基于模型预测的Amazon Athena ML,可帮助用户使用熟悉的技术,甚至通过自然语言来使用机器学习。
亚马逊云科技还提供如Amazon Redshift ML、可视数据准备工具Amazon Glue DataBrew、零代码化的机器学习模型工具 Amazon SageMaker Canvas等服务,让业务人员探索机器学习建模。
所谓“授人以鱼,不如授人以渔”,亚马逊云科技通过技术、产品和方案的不断创新,以及更专业化的服务,助推更多企业成为数据驱动型组织。亚马逊云科技拥有面向快速算法原型的数据实验室的应用科学家,面向生产精度模型指导的机器学习解决方案实验室,以及提供端到端咨询及交付的专业服务团队,并把与大数据分析和机器学习相关的所有专家结合在一起,全面探索和应对机器学习与大数据融合带来的挑战。