这几天朋友圈异常热闹,导火索来自前阿里AI科学家贾扬清的一则消息,他说某国产大模型抄袭了META 的LLaMA架构,并且只换了几个变量名称就说成是自研,谴责这种行为没有底线。就在很多人拿着国产大模型一对一比对,猜测是哪家公司这么干的时候,“肇事者”终于“浮出了水面”,原来是创新工场董事长兼 CEO 李开复推出的“零一万物”(Yi-34B)。
关于抄袭的“大锅”
有国外开发者直接点名,在零一万物的Hugging Face开源主页上,开发者ehartford质疑称该模型使用了META LLaMA的架构,只修改了两个tensor(张量)。零一万物曾在几天前表述,最新发布的开源大模型Yi-34B性能卓越,一鸣惊人。该公司有冲进第一阵营的初心和决心,拥有可以对标 OpenAI、Google等一线大厂的团队。抄袭事件出来以后, 零一万物公开致歉,并表示会在各开源平台重新提交模型及代码,补充LLaMA 协议副本的流程,尽速完成各开源社区的版本更新。
很明显,零一万物光明正大地承认自己在模型训练过程中,沿用了GPT/LLaMA的基本架构,正是因为LLaMA社区在开源上的贡献,使得零一万物可以快速起步。
至此,我们不去评价功过是非,当所有国内大模型都松了一口气,庆幸这口“锅”没砸在自己的头上时,关于开源与自研的问题再次引起争议。
其实,在之前的软件时代,国产软件的自主创新能力就遭遇过质疑。由于我国基础软件基础薄弱,起步较晚,我们最早大量采用开源,导致我们的软件被称为是“开源套壳”。的确,国产软件在研发过程中,确实存在着一部分功能采用欧美企业软件来实现,导致我们现在还在受这些企业的专利限制,并支付专利费用。事实上,在全球化科技环境中,跨国竞争与合作是一种常态,各种技术创新都建立在前人实践的成果之上。换言之,开源的使用并不意味着缺乏自主创新能力,而是基于社区可靠性和广泛性支持,可以帮助更多企业构建更稳定的应用。
只不过,不管你是开源的玩法,还是选择自研创新,都要遵守游戏规则。你是怎样一种状况,就要清清楚楚告诉用户,尊重各自的劳动成果,这是一家企业最基本的行为准则。
开源,还是闭源?
从去年底开始,国内外均以肉眼可见的速度奔向大模型,各种文生文、文生图、文生视频等应用,如雨后春笋般诞生,这背后开源的基础架构带来了强大的推动力。因为,有了开源的数据、算法和框架,其他企业就不用重复造轮子,可以让科技创新更高效。那么,到底如何评价一个模型是不是自研?业内有一种说法是,如果你采用的算法和框架是自己实现的,同时数据是自己收集、清洗的,那就算自研;如果其中三项均来自开源,那就不能被认为是自研。
需要特别注意的是,在开源环境下,模型的自研性并不是唯一的考量标准,还需要考虑模型的实用性、性能和可靠性等因素。所以,如果你使用了开源的框架,同时遵守了开源社区的规范和准则,不侵犯他人知识产权,并且尽可能回馈给开源社区,促进开源社区的发展,那这个模型就可以被认定为是自研。
事实上,当大模型开始狂飙,很多企业都在这个问题上纠结过。有了开源,我们还需要自研吗?最终,大多数企业的选择都是同一个,那就是只能借鉴,不能全盘照抄!模型训练不是开黑盒,只要做不到完全透明,就存在安全风险。
目前,大模型正在向各个行业和企业渗透,比如:金融行业的信息评估预测、医疗行业的影像分析和药物研发、零售行业的销售分析和市场预测、制造业的生产数据分析和调度计划等,都会受到前所未有的影响,我们必须要构建出属于自己的可以自主可控的模型,才能拥有最终话语权。
现实情况是,对于很多互联网大厂来说,如果没有自己的大模型生态,那意味着未来的发展会受阻,甚至出局,所以大模型是必选项。而一些小企业,则依附更大的生态来发展自己垂直领域的模型。所以,大模型看起来非常热闹,已经演变成“百模之争、千模大战”,但背后的竞争也会更加残酷。对于每一个入局的玩家而言,只有找准“赛点”,才能在白热化的竞争中存活下来。