云计算·大数据 频道

AIGC时代,数据平台如何演进?

  我叫张为,是阿里云数据库的一名研究员,从事AI与数据库相结合的产品研发工作。

  我过去的经历和人工智能其实有过好几段交集,最早是2003年,也就是整整20年前。当时我在清华大学人工智能实验室读研究生,接触到了非常早期的人工神经网络。有个作业是用一个非常小的神经网络来拟合一个简单的函数,用于为我们机器人的控制添加灵活性。当时所做出来的神经网络只有三层几十个神经元,也就是几十个参数。用来训练神经网络的数据,大小只有几个KB。用今天的视角来看,简直不能再迷你了。今天我们常常谈论GPU算力,那时候GPU刚诞生不久,它唯一的用途就是玩游戏,所以回看当年,无论是所拥有的数据,还是我们处理数据的能力,都远远不能让我们构建出接近任何生物的智慧信息处理能力,更不要说去挑战人类的智能了。

  让我们把时间拨回到今天,经历了快速发展数字化的20年,今天我们对数据的存储分析和运算的能力,已经通过云计算基础设施得到了大大的加强。随着数据的积累,以及AI算法的不断迭代演进,今天的AI模型已经开始推动各行各业从数字化升级到智能化的全面转型。

  2020年,我有幸在Facebook带领团队上线了第一代支持万亿参数的大模型基础设施。从那以后我们看到超大规模的推荐模型、视觉模型,以及最近特别火热的大语言模型纷纷问世,AI模型的能力开始推动各行各业飞快地朝着智能化去演进。

  智能化时代,我们用数字化基础设施收集海量数据,用AI算法分析数据,提取其中的知识,将这些知识凝聚成大模型,再用大模型来管理和分析我们的海量数据。

  在AI时代,传统的数据服务基础设施,尤其是数据库将面临什么变化,会给我们带来什么样的商业机遇。同时,在这样一个可以利用AI算法来深入挖掘甚至生成数据的时代,我们又会面临什么样的挑战?这就是我今天想和大家分享的话题。

  基础数据服务已经给我们今天的生活带来了巨大的便利。请大家看一下左边的例子,例如只要打开你的支付宝,它可以很清楚地回答,你去年把钱花在哪里了?

  请大家再去想象这样一个场景,你想和朋友一起享受一顿晚餐,你打开手机APP,输入“有情调的意大利餐厅”。很快你就会得到几百家餐厅的信息,那么问题来了,这些餐厅真的符合你的要求吗?其中有多少仅仅是因为它符合了意大利或者情调这些关键字而被检索出来的呢?

  如果我们往更深一层去想,不同的人在不同时间也会有不同的需求,比如说情人节,或是大年三十,人们对情调的要求必然不一样。今天的传统数据库不能很好地完成刚才这个任务。因为在传统数据库的背后,有一套相对固定的算法逻辑,它只能按照预定的规则和关键词搜索和筛选数据。

  换句话说,它缺乏对数据深度的理解。而在我们的日常生活中,从选择餐厅到预定酒店到购物、看电影,背后都隐藏着大量的数据决策过程。在这个过程中,传统数据库能力的局限性经常让人感到很不方便。在刚才的例子里,我们想象一下,你约朋友去吃饭,朋友会说好,然后会问你“去哪儿吃?”,这时你会感觉很头痛,因为寻找餐厅是一件很麻烦的事。当你使用餐厅搜索APP查找意大利餐厅,传统数据库只能基于你输入的位置、关键字,比如意大利,来列出附近所有包含该关键词的餐厅,但实际上你可能有更多的期待和要求。

  比如你希望这家餐厅提供番茄海鲜口味的意大利面,或者希望餐厅氛围适合约会。这时传统的数据库就束手无策了,因为他们很难理解和搜索到番茄海鲜口味和意大利面的深层次联系。为什么?因为传统的数据库没有真正的理解需求,只是单纯的根据关键词去做匹配。所以结果很可能是这样的,你收到了50家餐厅的推荐,但其中只有两家真正符合你的需求,于是你需要花费大量的时间去翻,一个一个去浏览比对,而不是直接得到你最满意的答案。而且今天随着数据量的不断增加,这种不方便会体现的越来越明显。因为你会花越来越多的时间查询餐馆的照片和评论,这会让我们的决策变得越来越慢,越来越麻烦。无论是找餐馆还是电商购物,相信大家都有类似的感受。

  随着技术的演进,人工智能已经开始渗透到各个领域,包括数据库技术,它所带来的不仅仅是技术上的进步,更重要的是一种全新的思维方式。从被动的搜索到主动的理解,这里的理解可以分成三个层次。

  第一层是对数据内容的理解。对于传统数据库来说,一张餐厅的照片只是一串二进制代码,而对于AI驱动的数据库,它可以看到这张照片里的风景和蜡烛,它可以识别菜的口味,卖相,甚至感受到这家餐厅的浪漫氛围。这种对于数据内容的深度理解,让数据库不仅仅是存储和检索的工具,它开始具有了理解数据语义的能力。

  第二层是理解数据的资产。在传统的数据库中,一条关于餐厅的评论可能仅仅被看作文本数据,但在AI驱动的数据库中,这条评论可以被深入挖掘,找出背后的价值。例如,当一位用户发表了一条评论说这家餐厅的牛排味道不错,但是环境有点儿吵。那么AI驱动的数据库就可以从中提取关键的信息,并结合用户的评论、照片等数据,为我们提供一个更为全面的餐厅画像。比如这家餐厅可能不太适合约会。

  最后一层是理解用户的使用意图,这是AI驱动的数据库最具革命性的一点。过去,如果我们想从数据库中查询信息,我们必须使用专业的查询语言,比如SQL。但在AI驱动的世界里,我们可以直接使用自然语言向数据库提问,就好像和一位知识渊博的朋友聊天一样,可以极大降低数据库的使用门槛,让更多的人能够直接与数据互动。那么这一切是如何实现的呢?在技术层面,AI为数据库带来了一系列创新:

  首先是深度学习技术,这使得数据库可以自动地识别和分类大量的非结构化数据,例如图片、视频、音频等等。例如当我们上传一张餐厅的照片,AI驱动的数据库可以自动为这张照片打上标签,比如龙虾,意大利面等等,为后期的数据检索提供便利。

  其次是自然语言处理技术,这让数据库可以理解用户语言的含义,以及数据库里存放数据的含义,并为用户查询提供更准确的答案,而不再是简单粗暴的关键词匹配。从此,我们的数据库可以真正理解用户的问题,并从大量的数据中找到合适的答案。

  最后,AI驱动的数据库,还具备自我学习和优化的能力,它可以根据用户的习惯持续优化查询的算法,提高检索的准确度和速度。

  人工智能与数据库的结合,未来不仅能够让我们的数据库变得更加智能,也将为我们的生活所基于的数据化服务带来前所未有的便捷。随着AI技术的快速发展,数据库的智能化已经从理论探索走向了实践。这样的技术进步不仅可以改变我们的生活方式,更将为将来的数字商业带来前所未有的机遇。

  智能化的数据库能够为企业带来更精准的数据决策。在传统的数据管理中,企业往往需要依赖大量的人力资源来分析和解读数据。这样的过程既费时又费力,而且常常因为主观的偏见或者是对数据处理的不当而导致决策失误。而现在,利用AI驱动的数据库,企业可以迅速准确地提取他想要的信息,能够做出更科学、更合理的决策。

  大家不妨想象一下,一家时尚服饰品牌,通过智能化的数据库就可以做到实时分析全球各地的时尚趋势和消费者的反馈。通过这些数据,它可以更迅速的捕捉到新一季的流行元素,这就可以大大缩短产品的研发周期,并且确保产品能够紧跟市场潮流,得到消费者的喜爱。

  再者,智能数据库可以为企业开辟全新的商业模式。在AI驱动的时代,企业不仅可以通过AI分析来优化自身的运营,同时还可将得到的知识产品化,为其他企业、商家、个人提供AI驱动的决策服务。比如一个本地生活服务平台,它可以通过智能化的数据库实时分析用户的需求、消费习惯、评价等等,从而自动帮助商家去调整服务内容,优化服务质量和价格策略。另外,这个平台还可分析用户的行为数据,发现某些服务的潜在需求,从而帮助商家推出新的服务或优化现有的服务。这样的数据分析不仅可以提高用户的满意度,同时还能够为平台和商家带来更多的收入。

  智能化的数据库,还可以提高企业的运营效率。因为传统的数据管理和收集通常需要大量的人力进行数据的录入、整理和分析、清洗。这样的过程不仅耗时,而且非常容易出错。智能化的数据库可以自动帮人类完成这些工作,从而大大减轻员工负担,提高运营效率。总的来说,智能化是数字化的延伸,数据库的智能化可以将为数字化商业带来无限的机遇。它不仅可以帮助企业提高效率、降低成本,而且还可以为企业开辟新的收入来源。在这个信息爆炸的时代,掌握了数据和人工智能的企业将会站在时代的前沿,引领未来的商业竞赛。

  最后我们来一起看看,智能化数据平台会面临什么样的挑战。在我们享受智能化数据平台提供的智能化服务带来的便利的同时,我们必须清醒认识到,它会伴随巨大的社会挑战。这就好比驾驶一辆高速跑车,速度快是好事儿,但是如果不系上安全带,随时都有可能发生事故。

  随着智能化数据平台对数据的理解和利用的加深,AI也可以让数据变成对坏人有利的作案工具。想象一下,以前我们仅仅是姓名、住址、电话等简单信息被泄露,就已造成非常广泛的电信诈骗困扰。

  大家已经看见作为AI的重要应用领域,AIGC可以用AI来生成图片、文字、音频、视频等多种类型的数据,而这仅需要少量的个人数据信息作为输入。于是,诈骗分子就可以利用AI的数据合成技术生成虚假的图片、视频、音频,用于制造假新闻、网络欺诈、虚假广告等等。这种假数据未来会急剧欺骗性,让人难以区分真假,从而达到欺骗、诈骗、造谣、恶意攻击等目的。

  尽管有这些挑战,但我仍然坚信,智能化的数据平台会推动我们社会更进一步。就像火车、汽车、互联网一样,每一次的技术革命都会带来新的机遇和挑战。关键在于我们怎样把握跑车的方向盘,确保他在飞速前进的同时不会出车祸。所以我们不仅需要技术,还需要良好的规范、透明的管理并提升每个人的数据意识。这样AI带来的变革,才能够成为真正推动我们进步的力量,而不是一场不受控制的狂欢。那么面对智能化数据平台带来的种种挑战,我们该怎么做?

  在这里,我提出四个观点:

  1. 提升数据的所有权和可追溯性。我们需要让每一条数据都有一个所有者,就好像有个家。你想象一下,你在超市买一个商品,每个商品上都会有一个条形码,会告诉你这是什么,从哪里来。我们如果把这个逻辑应用到数据上,让每条数据有一个明确的地址和归属,那么滥用数据的情况就会更易得到控制。

  2. 提升用户参与数据管理的程度。想象一下,如果我们能够随时了解自己的数据被谁用了、怎么用的,是不是能够安心很多?数据服务平台需要给用户这个权利,让用户可以方便查看并管理自己的数据。

  3. 大幅加强用户的数据安全教育。直到今天,很多人其实并不清楚数据有什么用,价值在哪里?我们需要极大增强对数据安全的教育,要反复向公众普及、告诉大家数据的重要性,让每个人都学会保护自己的数据资产,就好像保护自己的银行账户一样。

  4. 制定新的数据使用的合规性审查规范。这就好比制定交通规则,自从汽车被发明出来,我们就需要制定新的交通规则,驾驶员开车也要遵守这一规则。对数据使用,尤其是AI对数据的使用也是一样,我们必须制定一套新的规则,来保证数据的安全和隐私。

  总的来说,虽然智能化的数据平台给我们带来了非常多的便利,但是我们确实还要面对很多挑战。畅想未来,我们能够看见,随着AI结合数据将给我们带来无限可能。想象一下,未来我们所有的行为、所有的数据都被记录在智能化的数据平台里。甚至在不久的将来,利用AIGC的技术,可以合成生动的数字人。就好像流浪地球二一样,我们甚至可以通过AI和死去的亲人进行逼真的对话。

  所以我们要控制好AI,控制好对数据的使用,我的观点是,要想实现对AI的控制,最好的办法就是加强对数据的控制,这不是一件容易的事情,但我相信,以人类创造AI的智慧,一定能找到最好的解决方案!在这里我借用OpenAI CEO Sam Altman的一句话来作为结尾,We will minimize the bad and maximize the good。

0
相关文章