云计算·大数据 频道

从手搓Hadoop到智能数据平台构建,数新智能原攀峰的“自我突破”

  人生最好的状态,就是让内心的渴望,遇见阳光。对于数新智能CTO原攀峰来说,职业生涯的二次转型,让他变成一个心有所属、自带光芒的人。本期《名人堂——“数”风流人物》对话原攀峰。透过他的讲述,我们不仅见证了一位技术引领者为理想躬身入局、持续突破的创业历程,更从一线实践者的视角,深入了解了AI时代大数据平台建设的底层技术逻辑,描绘出智能数据管理的未来演进图景。

  ▲数新智能CTO原攀峰

  初入大数据领域

  如果你是大数据领域从业者,一定不会忘记2008年的“激情岁月”,那是Hadoop开始在中国流行的“高光时刻”。就在那个时候,作为还是北航硕士的原攀峰,便一头扎进了Hadoop的海洋。

  在大多数人还在用Excel处理数据时,原攀峰不仅大量阅读了Hadoop技术文档,同时还"手搓"了Hadoop集群,只为理解这个开源框架的每一个细节。

  回首过去,从参加第一届Hadoop in China大会上的"技术小白",到在VMware实习时基于Hadoop做二次开发优化,再到2011年加入淘宝……原攀峰亲历了中国大数据产业的从无到有,并且见证了阿里大数据平台从千台服务器集群到支撑整个双十一电商生态的蜕变。

  在这期间,他从底层开发做起,一路成长为阿里多个大数据平台的架构师及技术负责人。从大数据平台建设,延展到隐私计算平台建设,他不断突破技术边界。如今,这位在阿里深耕近12年的技术大牛,转身加入数新智能,继续探索智能数据平台的平衡之道。

  如果用一句话总结:原攀峰的故事,是一位“技术达人”的自我突破历程,也是中国技术人从"追着技术跑"到"引领技术走"的一个缩影。

  加入数新智能是 “破界”选择

  其实,原攀峰在2022年正式离开阿里时,圈内不少同行感到意外。

  毕竟,这位在阿里深耕12年的技术老兵,曾是淘宝数据平台、DataWorks、隐私计算平台等核心系统的奠基者之一。原攀峰见证了阿里大数据体系从千台集群到支撑万亿级交易的全过程,也主导构建了跨企业数据安全流通平台。

  按理说,功成名就,可以“守成”。但他却选择转身,加入一家名为“数新智能”的创业公司。根本原因是什么?答案源于他对当前数据平台设计理念的深度思考!

  “首先,我们能不能做一个平台,既管好企业内部的数据,又能安全地和外部流通?其次,能不能把大数据平台和隐私计算平台,拉通底层基础服务和存算底座,真正实现合二为一?”这两个来自灵魂深处的拷问,正是原攀峰离开阿里开启新的职业生涯的最初源动力。

  在阿里这样的大厂,大数据平台和隐私计算平台虽然同属数据体系,但往往分属不同团队、不同架构、不同目标。一个解决“怎么管理数据”,一个解决“怎么安全共享数据”。看似互补,实则割裂。但是,客户要的不是一个平台、两个平台,而是一个能打通内外的数据网络。数新智能的使命,正是构建这样一个“统一的数据网络平台”——既能支撑企业内部的数据开发、治理,又能实现跨组织、跨企业的安全数据流通。

  一体化平台建设,不仅是技术的融合,更是理念的革新。更巧的是,数新智能的CEO,正是原攀峰在阿里的前老板。两人在阿里共事多年,理念高度一致。当老板提出创业构想时,原攀峰几乎毫不犹豫地决定加入。

  一体化平台解决“数据孤岛”困局

  在数据平台领域,“一体化”已成为行业共识,通常理解,其内涵主要聚焦三个核心方向:一是数据存储与处理的一体化,湖仓一体打破数据湖与数据仓库的壁垒,流批一体实现实时数据与离线数据的统一计算;二是开发与治理的一体化,通过整合数据采集、清洗、建模、服务等分散工具链,简化架构复杂度,形成从数据产生到应用落地的全生命周期闭环管理;三是Data与AI的一体化,以多模态数据为中心,构建面向Al应用的数智一体平台。

  现如今,随着企业对“数据安全流通”的需求愈发迫切,“一体化”的边界也在不断延伸——数新智能基于数年来对企业数据管理痛点的深刻洞察,在业界常规理解的基础上,进一步将“大数据平台与隐私计算平台的原生融合”纳入“一体化”的核心范畴,即从“开发治理一体化”延展到“开发治理流通一体化”,形成了对智能数据平台的独特解读。

  2020年7月,数新智能在杭州正式成立,我们今天看到的DataCyber域名,有其独特的寓意。

  “Cyber就是‘网络’的意思。我们想做的,不是一个数据工具,而是一个数据网络。”

  如今,大多数企业仍在用“拼图式”方案应对数据挑战:一套大数据平台,一套隐私计算平台,中间靠人工协调,进行流程补位。结果往往是效率低下、成本高昂、数据孤岛林立。

  而数新智能的目标是,让这一切变得“原生一体”。不是谁融合谁,而是从底层设计上,就让数据管理与数据流通成为一体两面。原攀峰解释道,“就像水电网络,你不会问‘发电’和‘输电’是不是两个系统——它本就是一个网络。”

  事实证明,原攀峰当初的选择再正确不过。现在很多大厂也在探索融合式构建策略,探索隐私计算与数据平台的融通共享。相比之下,数新智能已经走在前面,企业从创业的第一天起就已经把“统一数据网络”作为基因,致力于打通数据壁垒,让数据流动起来,全面释放数据价值。

  很多人以为“一体化”只是把两个或多个平台拼在一起。原攀峰强调道:“真正的融合,是从底层架构到用户体验的彻底打通。”

  1. 资源利用率翻倍,成本直降

  “你不需要为‘共享数据’单独建一个机房,就像公有云,用户再多,也不会互相影响。”原攀峰解释道。

  传统模式下,大数据平台是一套算力,隐私计算平台再建一套。算力重复投入,运维成本翻倍。而数新智能的数据平台,共享同一套底层资源池。无论是内部数据处理,还是跨企业安全计算,都可以跑在同一个数据基础设施上。通过多租户隔离技术,既能保证安全,又能实现资源的弹性调度。

  2. 数据资产一目了然,安全分级自动流转

  “以前是‘数据在哪?谁在用?能不能共享?’三问灵魂拷打。现在是一张图看全。”原攀峰笑道。

  在一体化平台下,企业能清晰看到:哪些数据可以内部使用,哪些可以对外共享,哪些必须加密隔离。比如,对于一些零售企业客户,可以在数据平台中标记“用户购买记录”为可共享资产,自动接入隐私计算流程,与合作伙伴点对点进行安全联合建模。整个过程无需人工搬运数据、无需重复建设新的平台。

  3. Data + AI,双向赋能

  “对比DataWorks和PAI这样的产品,数新DataCyber产品体系原生就是一体化设计的。”原攀峰说道。

  更关键的是,数新智能不仅打通了大数据与隐私计算,还实现了数据平台与AI平台的深度融合。

  Data for AI:AI模型可以直接调用数据平台提供的高质量数据进行训练和推理。

  AI for Data:数据开发治理过程也能使用AI能力,实现智能清洗、智能分析、智能标注等。

  数新智能有三款核心产品:CyberData(数据平台)、CyberAI(智能平台)、CyberEngine(数智引擎)。客户可以单独购买,也可以组合购买,甚至可以把数新的平台和AWS的EMR搭配使用。其产品秉承开放兼容的理念,不绑定云底座、不挑客户。不管客户使用阿里云、AWS、华为云、谷歌云,还是IDC私有云,亦或是由多个云底座构建的混合云,数新的产品都能够兼容和输出。

  “我们不是替代者,而是增强者。因为,客户要的是能力,而不是枷锁。” 原攀峰解释道,这种“开放兼容”策略,让数新智能在AWS等云厂商市场大获成功。在AWS Marketplace上,很多客户在通过AWS构建底座,也可以通过数新智能构建底座,最后再统一使用数新智能提供的一体化数据智能平台。  

  GenAI时代的远征:云原生、多模态与Data Agent的三重进化

  “Hadoop时代结束了,现在所有平台都在向一体化、云原生和AI原生演进。”原攀峰大胆预测,数据平台的未来没有传统平台,只有智能数据网络平台。

  面向GenAI时代,数据平台这场棋局正在三重进化:

  进化一:从Hadoop到云原生,架构的彻底重构

  十年前,企业靠Hadoop集群处理大规模数据;今天,一个AI训练任务就能消耗PB级非结构化数据。数据平台向云原生进化,不是换个底座,而是一场从资源调度到成本控制的全面革命。为了帮助客户不断降低用数成本,数新智能通过“CyberData + CyberEngine”产品组合能力,全面拥抱云原生技术,极致优化平台成本。在存储层,通过对象存储、冷热数据分离等技术,可大幅降低存储成本50%以上;在计算层,通过硬件架构选型、弹性伸缩、Serverless化等技术,让计算资源利用率翻倍;在平台层,通过K8s容器化部署和微服务化,实现自动扩缩容;在应用层,通过SQL智能检查、任务资源调优等,帮助客户杜绝“天价账单”。

  进化二:多模态数据湖,AI时代的“新水电”

  生成式AI爆发后,80%的数据是文档、图片、音视频等,传统数据湖已无法胜任,传统“对象存储+Iceberg”变革只是数据智能化变革的一个典型代表,本质上都是为了高效存储和处理非结构化数据。为了应对多模数据处理挑战,数新智能的解法是通过“多模态数据湖 + 开放引擎架构”打造开放兼容技术支撑体系。数新智能的数据平台可以兼容对象存储S3/OSS等、数据湖格式Iceberg/Paimon等,支持非结构化数据高效写入和存储。同时,平台集成了Spark、Flink、TensorFlow、PyTorch、Ray等主流引擎,一个平台解决Data和AI不同类型的计算负载任务。用户可以通过“统一引擎网关”,实现Data + AI无缝协同。

  整体来看,数新智能在多模态数据处理的设计理念是:统一结构化和非结构化处理;不做封闭生态,而是要做开放底座。

  进化三:Data Agent,数据开发的“Copilot”时代

  智能数据变革不仅带来了底层架构的改变,也让开发模式发生根本变革。面向未来,数据工程师还会手动写SQL吗?原攀峰的答案是:不会了。

  “我们打造实现了Data Agent,也就是数据领域的智能体。”他说,Data Agent不是简单的问答机器人,而是能理解需求、规划路径、自动执行的智能助手。比如:面对“分析上个月华东区销量”这种营销场景需求,系统接收自然语言输入后,能够自动实现从数据清洗到SQL生成、SQL执行、报表生成的全流程。Data Agent 可以具备动态规划能力,不同问题可以生成不同执行路径,不再是固定的流程。并且,Data Agent可以实现私有化部署,支持客户微调专属大模型,保障数据安全。另外,Data Agent并不是一成不变,还可以持续进化,在任务执行中动态优化计划,越用越聪明。

  需要明确的是,Data Agent不是替代人类,而是成为‘副驾驶’。这也是数新智能CyberAI平台的价值所在,让数据开发进入“智能体时代”,通过CyberAI平台构建智能体Agent,90%的重复工作交给Agent,而人类则专注更高价值的决策。

  结语:

  从阿里到数新,从“让专业的人干专业的事”,到“三位一体化”融合平台的构建。如今,这场关于“智能数据平台”的远征,已经用足迹踏出一个梦想。真正满足时代需要的一站式平台,不是简单的工具组合,而是智能数据网络——它懂数据,懂AI,更懂业务。正是这种“贴近地面飞行”的理念,让原攀峰看清了未来的方向。在大航海时代,数新智能的使命,就是让这张网络,在全球企业落地生根。

0
相关文章