云计算·大数据 频道

​隐语社区开源三周年再升级:构建数据流通全链路兜底能力

  隐私计算技术迈出的一小步,却是社会向前发展的一大步!

  在科技进步的星辰大海中,隐私计算只是一个小众技术,却是数据流通的重要底座支撑能力。因为,如果数据安全问题无法保证,数据价值链不同环节之间无法协作,国家推动的“数据要素×”行动也就无法落地。如何让数据“可用不可见”,在确保个人隐私安全以及政府、企业数据不泄露的情况下,让数据可流通、可消费,实现数据价值最大化?隐语社区从三年前开始,就在为打造可信隐私计算开源社区而努力,希望通过统一框架支持主流隐私计算技术,不断降低数据供给技术门槛,建立可信数据空间。

  如今,三年过去了,隐语社区不仅获得大量开发者、高校以及产业伙伴的支持,自身技术也在从原有的隐私计算层面,向数据基础设施全栈能力进化。未来,隐语社区将通过隐私保护计算、可信数据空间、数据元件、数联网、区块链、数场等六大技术路线,为医疗、金融、城市治理、制造等多个领域提供一站式、可验证、可互联的数据流通技术方案支持。

  为什么要提供统一技术基座能力?

  从数据要素化发展现状来看,技术、基础设施与商业模式的演进正呈现出前所未有的复杂性与融合态势,需要一个统一的底座承担起技术兜底能力。从这个角度来看,隐语社区的社会及行业价值具有不可替代性。

  ▲北京交通大学信息管理理论与国际研究中心张向宏教授

  在北京交通大学信息管理理论与国际研究中心张向宏教授看来,相较于算力与网络基础设施,数据基础设施的共识尽管仍有差距,但“该不该建”的疑问已基本消失。国家通过18个省级试点、“两重”资金支持及人工智能高质量数据集中试基地等举措,正强力推动数据基础设施从理论走向实践。尤为亮眼的是,以蚂蚁、滴滴、美团、淘宝等为代表的龙头企业,已构建起高度成熟的“企业数据空间”。这些企业已经实现了海量个人敏感数据(如电话、住址)和国家机密级数据(如交通、气象)的“原始数据不出域,数据可用不可见”的流通模式,通过脱敏化处理和隐私计算技术,将数据加工成面向“衣食住行”的场景化服务,完成了从数据资源到商业价值的闭环。这说明,真正的数据流通并非原始数据的买卖,而是价值服务的交付。

  尤其在AI时代,数据要素化面临新挑战。具身智能和AI医疗等应用需要人类数据,但个体数据脱敏难度极高。对此,张向宏指出,通用产品(如陪护机器人)可通过对群体共性数据进行脱敏来解决。人工智能用数更根本的难题在于,AI的泛化能力依赖于与真实世界的交互反馈,这正是当前大模型的短板。人工智能未来的重要发展方向是“智能体”(Agent),即在通用大模型(基模)基础上,融合各行业的垂域数据进行训练,才能实现真正的生产与决策能力,道理如同“念完大学才能学医”,不可能一蹴而就。

  值得一提的是,在数据要素化过程中,必须正视一个关键现实——数据交易并非主流。尽管数据交易额每年都在增长,但与庞大的数字经济规模相比,数据直接买卖的交易额微不足道。全球范围内,成熟的交易平台亦属罕见。领先平台的数据护城河价值百亿,但从不“卖数据”,他们将数据转化为打车、订餐、金融等服务,这才是数据价值实现的核心路径。将数据评估、入表、交易视为“终点”是重大误区,它无法支撑起国家层面的要素化战略。数据要素的独特性决定了其发展不能简单套用土地、资本等传统要素的经验。数据流通的未来通途在于,构建以可信数据空间为载体、以安全融合服务为核心的新型生态,让数据在保障安全与隐私的前提下,真正成为驱动创新与增长的澎湃动力。

  有了隐语社区的技术兜底,不同技术路线的融合是必然,未来数据基础设施的形态可以统一为“可信数据空间”,但其内核一定以隐私计算为安全保障,以区块链、数据元件、数联网等其他技术为信任体系,实现数据供给、处理与应用三大环节的构建,这点已然成为行业共识。至于,区域公共数据的开放性如何解决?张向宏呼吁借鉴“滴滴模式”,通过市场化机制引入专业化第三方机构进行数据脱敏与加工,实现“透明化流通”。这要求政策明确支持,将公共数据的开放变为“可执行”的行动,为数据治理创造发展空间。

  数据价值释放的“关键卡点”是什么?

  ▲蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬

  就数据要素价值释放而言,市场需求旺盛,但付费意愿却踟蹰不前。蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬一针见血地指出,问题的根源往往不在于“不愿为数据安全付费”,而在于“缺乏为数据价值付费的机会和信心”。企业渴望获取数据资源以驱动业务增长,但如何证明这些数据真的“值钱”?这成为数据交易双方之间最大的“卡点”。

  要验证数据价值,关键在于价值验证。这需要将新的数据供给方与应用方的业务指标数据进行融合比对,量化其对业务指标的提升,包括转化率、风控效果等。然而,传统方式面临两大难以逾越的障碍:合规性与数据偏差。若按《个人信息保护法》要求获取数据集中每个个体的单独授权,不仅操作上“基本做不到”,更会导致样本严重偏差——例如,在金融风控模型训练中,高风险用户或“黑客”几乎不可能授权,最终得到的“干净”数据集反而失去了应用价值。

  因此,真正的破局之道在于实现高合规强度的匿名化,而非简单的脱敏。脱敏数据,比如如打车时提供的后四位电话号码,虽能获得授权,但依然存在通过关联其他信息被重新识别的风险(如结合医院挂号时间与科室信息定位个人),国内外已有诸多因脱敏不彻底而被重罚的案例。唯有实现真正的“匿名化”——即技术上保障数据无法被还原识别——才能在不依赖海量个体授权的前提下,安全地进行数据融合与价值验证。

  这正是隐私计算技术的核心价值所在。它构建了一个“先验证,后授权”的全新范式。首先,实现了密态价值验证。在加密环境下,供需双方的数据进行融合计算,仅输出“价值提升的指标”。整个过程原始数据“可用不可见”,保障了安全合规。其次,基于价值的授权更利于决策。当验证结果证明数据价值显著,双方再基于此推动正式的、合规的数据授权流程,此时的付费决策建立在坚实的价值证据之上,意愿自然强烈。

  隐私计算技术带来的价值是:1)数据不出域。核心企业的数据始终保留在其本地系统中,不会被明文传输或泄露;2)价值可计算。金融机构将风险评估模型“送入”数据持有方的隐私计算环境,双方在加密状态下进行联合计算;3)结果可信赖。最终输出的仅是金融机构所需的、经过验证的风险评分或信贷决策依据,而非原始数据本身。

  如何降低可信数据流通的技术门槛?

  ▲蚂蚁密算CEO王磊

  如何降低技术门槛,让更多企业,尤其是中小企业,能够安全、便捷地参与数据流通,是实现产业普惠的关键。

  蚂蚁密算CEO王磊分享了“隐语”社区在推动隐私计算技术普惠化与生态融合方面的战略布局与实践。隐语开源社区已发展三年,部署节点超过2000个,其中三分之一为企业用户。其核心优势在于低成本与易用性,产品几乎实现“开箱即用”,为中小企业和开发者提供了零门槛的入门路径。针对已部署开源版但需要长期维护、升级迭代及漏洞修复的企业,隐语推出“标准版”。其代码与开源版高度一致,但提供专业的企业级运维服务。这部分服务为收费模式,旨在覆盖运营成本,解决企业在使用开源软件时常见的“后顾之忧”。 考虑到私有化部署对中小企业而言成本高昂,隐语正积极探索可信数据空间的SaaS化。尽管在中国市场,大型企业普遍偏好私有化部署,但SaaS模式是降低中小企业使用门槛的重要方向。

  王磊强调,隐语的SaaS化将有别于传统模式——用户账户体系将掌握在用户自己手中,平台不控制数据,确保“你的数据安全由你自己保证”,这从根本上区别于传统SaaS平台的数据托管模式。

  为解决私有化部署中的兼容性与安全性问题,蚂蚁推出了“密算一体机”。从根本上解决了部署便捷性和安全保障问题。通过集成软硬件,避免在复杂异构环境中进行繁琐的适配工作,尤其适合需要快速验证的小规模集群。同时,通过内可信根,如TPM芯片和自研密码加速卡,为缺乏硬件级安全能力的环境提供强化的安全基座,确保计算过程的可信。

  需要重点强调的是,隐私计算不是停留在实验阶段,而是已在医保商保新品测算、农业补贴发放等场景成功试点。例如,为残疾人发放补贴,无需将包含具体疾病的残疾证信息交给业务方,而是通过密态计算直接输出“是否符合条件”的结果,既保障了个人隐私,又实现了服务精准触达。

  另外,在重要的金融场景,一场由数据与技术驱动的深刻变革正在发生。比如:在供应链金融领域,从依赖核心企业信用的“授信转移”模式,正在向基于真实交易数据的“数据驱动”模式跃迁。

  据金网络科技有限公司副总裁庄喆介绍,一种先进的“脱核供应链金融”模式正在兴起,核心企业不再提供付款承诺或担保,而是提供真实、全面的交易背景数据,比如:中标信息、签约数据、交货记录等。金融机构利用这些数据,独立进行风险评估和信贷决策,不再占用核心企业的授信。然而,这一模式面临巨大障碍,那就是核心企业或平台方往往不愿直接提供这些敏感的“私域数据”,担心数据泄露、商业机密外泄或引发合规风险。隐私计算技术正是破解这一困局的关键钥匙,通过隐私计算模式,如联邦学习、多方计算等,让数据可以在“可用不可见” 的状态下被使用。

  结语:

  链接全球超20,000名开发者,获得70余所高校及科研机构、60余家产业合作伙伴的认可……隐语社区今天的成就,已不是一个技术项目的进步,而是一项社会化工程。通过开源的力量,我们有信心解决数据要素化过程中的信任难题、技术壁垒和生态割裂,最终推动整个社会从“数据拥有者”向“数据价值创造者”的转变,这应该是隐语开源社区最深远的初心。打造一个开放、可信、普惠的技术社区,让数据在安全合规的前提下,像水和电一样自由、高效地流动,最终释放其驱动创新与服务社会的巨大价值。

0
相关文章