微信

刷屏!“AI界拼多多”再出手,Deepseek发布新模型,训练成本降低10倍

券商中国12-29 20:58

近日,一家来自中国杭州的公司Deepseek在全球AI界刷屏!

 

12月26日,Deepseek发布了全新系列模型DeepSeek-v3,一夜之间霸榜开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

 

更让海外AI界震惊的是,该模型的训练成本仅600万美元,成本降低10倍,资源运用效率极高。有AI投资机构负责人直言,DeepSeek发布的53页的技术论文是黄金。

 

据了解,Deepseek的中文名是“深度求索”,为量化巨头幻方量化的子公司。作为一家隐形的AI巨头,幻方拥有1万枚英伟达A100芯片,去年4月幻方宣布成立新组织,集中资源和力量,探索AGI的本质,在一年多时间里进展迅速。

 

Deepseek再进化

 

今年5月,Deepseek发布的一款名为DeepSeek V2的开源模型,因其史无前例的性价比,在AI界一跃成名。然而,仅仅过了半年多,Deepseek再度进化。

 

12月26日,Deepseek称,全新系列模型DeepSeek-v3首个版本上线并同步开源,该模型的多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。比如,在百科知识、长文本、代码、数学、中文能力上的表现,超越其他模型,尤其是在数学上,在美国数学竞赛(AIME 2024,MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。

 

同时,通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20 TPS大幅提高至60 TPS,相比V2.5模型实现了3倍的提升。

 

值得注意的是,Deepseek将API服务价格,调整为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。

 

Deepseek还决定为全新模型设置长达45天的优惠价格体验期:即日起至2025年2月8日,DeepSeek-V3的API服务价格仍然是每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens 2元。震惊海外AI界

 

最让海外AI界震惊的是,在性能突出的同时,该模型的训练成本大幅降低。

 

天使投资人Balaji称,DeepSeek新开源模型仅花费了560万美元进行训练,与GPT 4和Claude 3.5 Sonnet相当。如果属实,成本将降低10倍以上。

 

Open AI创始成员之一,李飞飞的得意门生Andrej Karpathy表示,“今天,DeepSeek通过一个前沿级LLM的开放权重发布,让这一切看起来轻而易举,而其训练的预算却非常低(2048个GPU运行2个月,总成本600万美元)。”

 

Andrej Karpathy分析,按照以往经验,这种能力级别的大模型,通常需要接近1.6万张GPU,而目前行业内的模型大多使用约10万张GPU。例如,Llama 3 405B模型消耗了3080万GPU小时,而DeepSeek-V3仅用了280万GPU小时,计算需求减少了11倍。

 

“这是否意味着前沿LLM不需要大型GPU集群?不是,但你必须确保不浪费你所拥有的资源,这看起来是一个很好的证明,表明在数据和算法方面还有很多工作要做。”Andrej Karpathy感慨。

 

Lepton AI创始人贾扬清则表示,2019年,他和deepseek团队进行了一次交流,希望向他们推销AI云解决方案。并试图说服他们,“不需要复杂云虚拟化,只需要容器和高效的调度程序;需要一个像NFS这样的通用存储,不需要太花哨但必须速度快”等观点,这些观点对市场上的许多参与者来说都是新颖的,需要一些说服力。

 

“但deepseek团队友善地告诉我,他们已经这样做很多年了。还让他帮忙,将计算资源免费捐赠给大学研究实验室,且无附加条件。”贾扬清称,从某种程度上来说,他们取得的伟大成就源于多年的专业知识,但这点却被许多人忽视了。

 

幻方量化CEO陆政哲在微信朋友圈表示,“看到杨清老师这段话,有点小感动。”

 

前英伟达机器学习专家Bojan Tunguz则表示,所有针对高端半导体的出口禁令实际上可能以可以想象到的“最坏”方式产生了反效果。它们似乎迫使中国研究人员变得比正常情况下更加聪明和资源高效。这似乎也证实了我自己的假设,即我们距离拥有人工智能机器学习部分的最佳算法还有很长的路要走。

 

“AI界拼多多”

 

Deepseek的中文名是“深度求索”,为量化巨头幻方量化的子公司。在硅谷,DeepSeek则被称作“来自东方的神秘力量”。

 

作为一家隐形的AI巨头,幻方拥有1万枚英伟达A100芯片,而国内拥有超过1万枚GPU的企业不超过5家。在中国7家大模型创业公司中,Deepseek是最不显山露水的一家。

 

去年4月,幻方宣布成立新组织,集中资源和力量,探索AGI的本质,在一年多时间里进展迅速。当时幻方就表示,多年以来,该公司坚持把营收的大部分投入人工智能领域,建设领先的AI硬件基础设施,进行大规模的研究,探索人类未知的奥秘。

 

“我们相信几乎所有的创新都是从大胆尝试和点滴积累中孕育而来。我们将充分而持续地投入,不做中庸的事,用最长期的眼光去回答最大的问题。”

 

成立一年后,deepseek发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅1块钱。随后,字节、腾讯、百度、阿里巴巴等纷纷跟进,打响中国大模型价格战。DeepSeek也被迅速冠以“AI界拼多多”之称。

 

据了解,幻方量化和Deepseek创始人梁文锋是一个极致的80后技术理想主义者,从幻方时代,就在幕后潜心研究技术,在DeepSeek时代,依旧延续着他的低调作风,和所有研究员一样,每天“看论文,写代码,参与小组讨论”。

 

在接受暗涌的采访中,梁文锋表示,我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。

 

“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”梁文锋表示。