封面故事
+

DeepSeek:中国AI新贵的颠覆之路

2025-5-17    作者:马舒叶    来源:    

  当DeepSeek,一家成立仅几年的中国 AI 初创公司,竟然以一己之力撼动了全球科技巨头的根基,并且越过了AI行业的两座大山“算力霸权”和“闭源垄断”;当村头的大爷大妈都能在抖音、快手分享DeepSeek的使用体验,真正的AI普惠或许已经到来。


DeepSeek:中国AI新贵的颠覆之路


  不过,大部分使用者还不能真正了解DeepSeek的意义,大多数创业者对DeepSeek的使用也还流于表面。

  在DeepSeekR1引发全球科技界震动之前,在AI大模型领域,美国的OpenAI无疑是拥有绝对优势的行业头部企业,硅谷人士普遍认为,中国科技界落后美国好几年,中国科技创业团队大多与“技术落后”“copy”等关键词相关。

  “DeepSeek追平OpenAI o1之后,海外基金开始更加积极地接洽中国创业团队了。”某海外AI agent(智能体)创始人表示,DeepSeek的出现扭转了中国AI创业者在硅谷的刻板印象, 从这一点上来说,DeepSeek的意义是无法估量的。

  在A I M E 2 0 2 4 数学基准测试中,DeepSeek R1得分率为79.8%,O p e n A I o1的得分率为79.2%;在MATH—500基准测试中,DeepSeek R1得分率为97.3%,OpenAI o1的得分率为96.4%. a16z合伙人、AI大模型Mistral董事会成员 A n j n e y Midha更是发文说道, 从斯坦福到麻省理工,DeepSeek R1几乎一夜之间就成了美国顶尖大学研究人员的首选模型。

  而落到应用层,作为更有效率、成本更低的大模型,DeepSeek也在两方面实现了突破。


DeepSeek:中国AI新贵的颠覆之路


  首先是算力。过去几年,AI行业陷入了一场疯狂的“算力军备竞赛”。OpenAI、谷歌、Meta等巨头疯狂烧钱,训练一个GPT—4级别的模型动辄花费上亿美元,一次预训练的成本就高达几百万美元,OpenAI更是声称,预计融资3000亿美元,建造一个AI帝国。

  同时,英伟达的GPU被炒成“数字黄金”,公司创始人黄仁勋的市值一度突破万亿美元。

  正是因为训练大模型需要的算力消耗巨大,包括金沙江创投董事总经理朱啸虎等在内的一众投资人公开发言,认为中国创业团队没有必要再自己训练大模型,“将来都得接入OpenAI或者国内大厂的大模型”成为主流言论。这种言论的依据是,包括OpenAI在内,该领域的创业者几乎都承受着算力消耗带来的巨大成本压力。

  OpenAI的数据训练非常依赖人工干预,其旗下数据团队甚至被建设成不同水平的层级,数据量大、标注要求简单明确的浅层数据被交给肯尼亚等国家和地区的廉价外包劳工,高等级的数据则被交给更高素质的标记人员,其中不少是训练有素的高校博士。

  DeepSeek的独特性在于,仅花费500万美元,就开发出性能对标GPT—4o的大模型,这对AI领域的其他创业者形成了明显的“降维打击”。

  DeepSeek R1直接强化了学习路线,就像让一个天才儿童在没有任何示范和指导的情况下,通过不断尝试和获得反馈来学习解题。这种学习路线的创新让DeepSeek闯出了一条新路子,即用更低的算力消耗达到高效率的模型反馈。对此,人工智能搜索引擎公司Perplexity首席执行官阿拉文·斯里尼瓦斯评价道:“需求是发明之母。因为DeepSeek必须找到解决办法,所以他们创造出了更高效的技术。”

  DeepSeek不按套路出牌,依靠优化算法和数据质量,让国内其他AI创业者也摆脱了对算力的强需求,让“堆显卡”式的AI军备竞赛成了过去式。

  其次是开源。

  “同样的功能,使用DeepSeek的价格相当于使用O p e n A I 价格的1 / 2 0 .” 某A I 开发者表示, 在DeepSeek着力拉低算力价格之前,OpenAI的API(应用程序编程接口)

  价格确实贵到“让人肉疼”,GPT—4o每百万tokens(AI模型理解和生成语言的最小单位) 收费高达3 0美元。但是,随着DeepSeek持续推出开源模型,开发者已经能够用DeepSeek代替大多数OpenAI的调用,完成任务的成本大大降低。并且,DeepSeek的更新往往都伴随着C端的无限免费调用。

  成为A I 界的拼多多或许并非DeepSeek一开始的意图,但却逐渐成为事实。同时,开源策略也让DeepSeek 迅速成为全球开发者的宠儿。足够低的价格让DeepSeek不断“出圈”。公布后的短短一周内,其模型在Hugging Face的下载量就突破了10万次,成为最受欢迎的开源大模型之一。Meta AI首席科学家杨立昆也不得不承认:“开源模型正在超越专有模型。”其造成的直接影响就是,如今,包括OpenAI在内,字节等专攻闭源大模型的大厂也开始加入开源。

  另一方面,DeepSeek“低成本+高性能”的模式直接动摇了整个 AI行业的商业模式。字节跳动、阿里云通义、智谱等国内大厂纷纷调整策略,研究如何跟进R1级别的模型。

  需要关注的是,这是一个团队仅150人,平均年龄28岁,采用“无固定团队、无汇报关系”的扁平架构的企业,顶尖人才的数量远远少于大厂,但却在短短几年的时间里实现了两个突破,让DeepSeek在GPU受限的环境下,依然能训练出世界级模型,堪称AI界“四两拨千斤”的典范。

  在AI江湖风起云涌的今天,当我们回看DeepSeek的逆袭,应该意识到,这不仅是一场技术革命,不仅意味着中小企业不用天价GPU也能训练高质量模型,也不仅意味着开发者可以在开源大模型上自由定制模型,更重要的是,AI创业的热情被激活,未来我们将会看到更多AI创业者的创新之举。


  • 相关文章
  • 热门文章
版权所有©《光彩》杂志社京ICP备05041205号-1
【电脑版】  【回到顶部】