设为首页 | 加入收藏 | 今天是2025年06月30日 星期一

聚合智慧 | 升华财富
产业智库服务平台

七禾网首页 >> 快讯要闻

BAT先跑,为什么是DeepSeek跑赢了?

最新高手视频! 七禾网 时间:2025-06-30 14:10:13 来源:中信出版社

本文摘编自《深度探索:解码DeepSeek及人工智能的未来》

作者 陈劲 安健



2025年1月27日,正值中国农历新年除夕的前一天,当中国人正忙着采买年货、打扫庭院,准备热热闹闹地迎接新年时,一家来自中国的人工智能初创公司DeepSeek却在大洋彼岸的美国搅动风云。


先是DeepSeek连续多日登陆中美AppStore免费类应用排行榜第一,紧接着人工智能芯片领先供应商英伟达股价直接暴跌12%。此外,Meta和谷歌母公司Alphabet,英伟达的竞争对手Marvell、还有博通、美光和台积电也均大幅下跌。


一时之间,无论是美国科技界、AI界的大佬,还是各大民间科技社区,都在热议这款来自东方的"神秘AI应用”及金融科技公司——幻方量化!


比如,来自OpenAICEO山姆奥特曼的最新认可:“Deepseek的R1是一款令人印象深刻的模型,尤其是在这个价格范围内能提供的性能上。


从表面来看,DeepSeek一夜之间爆火,火得一塌糊涂,火得一发不可收,但又火得莫名其妙。不过太阳底下没有新鲜事,DeepSeek横空出世的背后,其实是中国AI公司在这一领域持续多年的深耕细作,是一个典型的中国科技初创公司凭借技术创新和开源模式迅速崭露头角的故事。


近日,清华大学经济管理学院创新创业与战略系教授、技术创新研究中心主任陈劲在新书《深度探索:解码DeepSeek及人工智能的未来》中,系统复盘了DeepSeek的崛起之路,让我们全面解读了其背后的技术逻辑、商业模式以及对未来社会的深远影响。


大模型的中国涌现


从本质上说,2022年底,OpenAI发布ChatGPT掀起了人工智能热浪,在中国掀起了“百模大战”。


ChatGPT的功能升级刺激国内企业加速布局,阿里、华为、360等企业迅速跟进,推出“通义千问”“盘古”“智脑”等模型,形成“百模大战”的雏形。


截至2023年10月,国内参数规模10亿以上的大模型达238个,覆盖互联网巨头、科研院所及创业公司,如知乎“知海图AI”、复旦大学MOSS等。


头部企业如百度、阿里、腾讯通过优化算法(如文心一言推理效率提升10倍)和算力集群(腾讯HCC高性能计算集群)争夺技术高地,这种通用大模型的规模竞赛,在加剧技术内卷的同时,也促进了技术突破,比如多模态技术。2023年上半年,文生视频技术快速发展,百度“文心一言”视频生成功能、阿里达摩院“文本生成视频大模型”相继落地。


大模型的火爆也带来了下游企业的繁荣,数据标注、模型训练工具(如星尘数据、ScaleAI)借势而起,成为产业链关键环节。各家企业躬身入局,带动了生态的发展,Meta、谷歌推动开源模型(如Llama)的发展,而OpenAI转向闭源;作为回应,国内华为昇腾、腾讯云等尝试构建自主生态。


成本优势和注重应用落地是从阿里M6开始,国产大模型就具备的行业基因,这种基因也在这次史无前例的大战中被发扬光大。长春市妇产医院利用第四范式的AutoML技术构建“新生儿体重预测模型”,误差控制在200克以内;商业银行借助AI反欺诈模型挖掘出了多达20亿条的潜在线索,相较于传统依靠人工规则仅能发现的上千条规模,优势极为显著。


“百模大战”无疑是壮观的百舸争流,因此自然也免不了泥沙俱下,在有人指摘其有“重复造轮子”之嫌时,自然也就有人说“‘百模大战’不是参与者太多,而是远远不够”。


对于平时关注大模型不多的读者而言,他们可能会认为:是ChatGPT在全球的爆火,才让中国科技企业迅速加入这场战局。这只能说答对了问题的一半。一些人工智能初创企业的确是眼见ChatGPT引发的狂潮到来,迅速融资后开始投入大模型的研发。但对于国内一些科技大厂来说,它们在人工智能领域深耕已久,早就进行了多年的细致布局与准备。


阿里云、百度、腾讯、华为等大厂早早开始在大数据、大算力、预训练模型等方面进行技术积累。这些企业不仅紧跟生成式AI的潮流,还通过发布自研的大模型(如阿里云的“通义千问”、百度的“文心一言”、腾讯的“混元大模型”和华为的“盘古大模型”)在技术上进行不断优化,推动了大模型的研发。


除了科技大厂,很多企业也加速了在AI领域的布局。大模型的应用已经从传统的计算机视觉、自然语言处理等扩展到更多行业场景,包括医疗、电力、煤矿等多个领域,展现出AI工业化的趋势。


根据赛迪顾问发布的《2023大模型现状调查报告》,截至2023年7月底,中国累计已有130个大模型问世,“百模大战”局面已然呈现,大模型的竞争开始进入“大力出奇迹”的阶段。


这个看似混乱无序的“战国时代”的背后,彰显了一个国家、一个古老民族的砥砺奋进,是整个中国人工智能行业对先进技术的追赶与超越的雄心壮志。在中国这个拥有最多理科人才、最大应用市场和广大创业者空前热情的国度之下,伟大创新的诞生应该只是个时间问题。


从这个角度看,DeepSeek的崛起的确是建立在国产大模型的大厦之上,背后交织着时代机遇、地域禀赋与民族意志的共振。


幻方量化,一把猝火的刀


那么问题来了,为什么引爆全球关注的不是之前的豆包、kimi、智谱?也不是阿里、腾讯、百度......?而是被戏称为“东方神秘力量”的金融科技公司——幻方量化。


时间进入2023年,尽管AI大模型仍在如火如荼地发展,但国内的“百模大战”似乎渐渐有偃旗息鼓的苗头。


原因无他,只是大模型训练起来太贵了。研究机构EpochAI提供的数据显示,大模型训练成本在2022年之后出现爆炸式增长(见图3—1)。2023年,OpenAI首席执行官奥尔特曼透露,GPT—4的训练成本超过1亿美元,而GPT—3的训练成本仅为460万美元,两代产品间成本飙升了20多倍。谷歌在其后发布的Gemini的训练成本达到了令人咋舌的1.91亿美元,这还没有将研究人员的薪酬计算在内。


如此高的训练成本注定了大模型竞争是一个“贵族游戏”,也许只有现金流充足的互联网巨头们才是拥有上桌资格的“玩家”。2023年伊始,起初观望的各家大厂已纷纷入局大模型,抢滩人工智能时代的桥头堡。


另外,“百模大战”如一团夏日烟火,热烈而短暂。在中美两国,除了几家头部企业,众多创业公司因缺乏足够资金支持和可见的盈利模式,而选择调整方向至AI应用甚或萌生退意时,幻方量化却逆势而行,选择孤注一掷地深耕这一领域。


2023年4月14日,幻方量化发布进军大模型领域的公告时,援引了法国新浪潮电影先驱特吕弗对青年创作者的寄语:“务必要疯狂地怀抱雄心,且还要疯狂地真诚。”


这一公告反映出幻方量化对技术探索的独特哲学:其以挑战金融领域复杂场景积累的算法能力为基底,选择在AGI这一人类科技巅峰领域进行高密度的投入,展现出超越商业逻辑的理想主义色彩。


不过在外界来看,DeepSeek既没有理想主义的光环,也没有理工男的耿直,外界听到的是关于其用AGI炒股的传言。


据《财经十一人》2023年的报道,中国拥有超过1万张GPU的企业不超过5家,幻方量化是其中唯-一家不属于科技“大厂”的企业,担得起金融领域“卡王”之称。因此,不少人认为幻方要用“AI”炒股了,更有人认为量化用“AI”炒股。


2023年4月16日,幻方量化董事总经理陆政哲不得不在朋友圈澄清:“我用中文重申一下:AGI不是用来炒股的,有大得多的用处和大得多的价值。”这也可见DeepSeek对于理想的执拗。当然这种执拗并非无的放矢,而是由技术实力支撑的。后来证明,DeepSeek通过多项技术创新成功地让大模型训练变得“物美价廉”起来。


回溯DeepSeek的来时路


从公司成立时长来看,DeepSeek展现了惊人的发展速度。2023年7月,幻方量化将其AI研发部门分拆,正式成立独立子公司DeepSeek,宣布将聚焦于研发具备人类认知水平的人工智能技术。其目标不仅限于复刻ChatGPT等现有成果,更致力于探索AGI的深层奥秘,推动技术边界向更广阔的未知领域拓展。这头鲸鱼从此进入了一片广袤蓝海,开始急速巡弋。


尽管成立时间不长,但DeepSeek的发展速度和技术创新能力令人瞩目。仅在成立半年后,即2023年11月2日,DeepSeek发布了DeepSeekCoder,这是其首款开源代码大模型,支持多种编程语言的代码生成、调试和数据分析任务。该模型完全开源,免费供商业使用,这是该公司在AI领域的首次重大突破。


紧接着在2023年11月29日,DeepSeek发布了其首款通用大语言模型DeepSeekLLM67B。这款模型的参数规模达到了670亿,性能接近GPT—4,并在多个中英文公开评测榜单上表现优异。DeepSeekLLM67B进一步使DeepSeek成为开源大语言模型领域的领先者。


2024年5月,DeepSeek发布了开源第二代MoE(混合专家)大模型DeepSeek—V2,这款模型不仅在性能上实现了显著提升,还因其极低的成本引发了行业内的价格战。DeepSeek—V2的推理成本仅为每百万令牌1元人民币,这一价格仅为Llama3的1/7,GPT—4—Turbo的1/70。这种巨大的成本优势迫使国内主流大模型厂商,包括腾讯、百度、阿里巴巴、字节跳动等,纷纷下调价格。


又是短短半年过后,DeepSeek—V3模型发布,其输入价格进一步降至每百万令牌0.5元,这再次推动了国产大模型的降价潮。


2024年12月,字节跳动下调其旗下豆包视觉理解模型输入价格,与行业平均水平相比,降低了85%。


真正的爆发是在2025年的1月20日,DeepSeek发布了性能对标OpenAIo1正式版的新模型—DeepSeek—R1。由于它在基准测试中超越了OpenAI的同类产品,且强大丝滑的产品使用体验震惊了海外AI社区,因此DeepSeek被海外AI界人士称为“神秘的东方力量”。同时,国内媒体也在争相报道DeepSeek的大火,称DeepSeek为典型的“墙外开花墙内香”的中国创新。


以柔克刚:用算法压榨算力


除了前面介绍的内容,DeepSeek还有下面这些让人眼花缭乱的创新:无辅助损失的负载均衡策略,跨节点全对全通信内核,双路跨节点通信,数据精筛,FP8混合精度训练框架,等等。


我们可以把训练大模型想象成运营一个工厂,降低成本的方式就两招:一是压缩整体的工作量,二是不让一个工人闲下来。多头潜在注意力机制和FP8混合精度训练,就是在压缩工作量。


传统的注意力机制中,每一层都分别存储名称和对应的值。在训练过程中,需要逐一计算这些名称和值,并将它们存储在内存中。这就好比在一个班级里,需要记住“张三120斤,李四180斤”这样的具体信息。而多头潜在注意力机制的创新之处在于,它将前后几层的信息合并在一起,不再单独记录每个名称,而是统一称为“第一排”。当需要具体信息时,它再通过类似于“第一排第二个男生体重多少”的方式来进行动态查询。这种设计大幅减少了内存占用,同时提升了训练效率。


FP8是指一种基于8位浮点数的表示方法,相较于传统的FP32(32位)或FP16(16位),它的计算量更少,存储需求更低。虽然看似降低了精度,但FP8混合精度训练并非一刀切地降低精度,而是在关键步骤中使用高精度计算(如FP32)以保证准确性,而在其他场景中,则通过定期校准(每128个数交给FP32核算一次)来避免误差累积。这种混合策略既减少了计算量,又维持了模型性能。打个比方,原来能精确到1.85元的账单,现在直接抹零为2元。但面对像比特币这样大币值货币交易的时候,对于1.85比特币,系统会切换回高精度模式,一分一厘地仔细计算。


多头潜在注意力机制和FP8混合精度训练这两项技术可以视为压缩工作量的典范。除了压缩工作量,DeepSeek还采用了多项技术来提升并行效率,确保每个“工人”都能高效运转。


双路的核心思想是优化计算流水线。传统流水线中,前一个工人完成任务后,下一个工人才能开始工作,这种串行模式容易导致等待时间过长而影响效率。而DeepSeek设计了两条并行流水线,使得不同任务能够同时进行。比如,当一条流水线的工人正在贴胶布时,另一条流水线已经在传输下一个任务。这种方式不仅实现了数据传输与计算的同步进行,还使整体速度提升了50%,通信开销减少了20%。


在MoE模型中,如何分配任务是一个难点。如果固定分配任务,比如做出类似“小王必须送30单,小李必须送50单”这样的规定,则很容易出现某些专家过载而另一些专家闲置的情况。DeepSeek—V3的无辅助损失的负载均衡策略则采用动态分配机制,类似于智能派单系统。当某个专家连续处理过多任务时,系统会自动降低其接单概率,并将任务分配给其他空闲专家。这种灵活调整的方式显著提升了系统的运行效率,使不同专家的工作量达到动态平衡。


DeepSeek在效率上取得了显著突破,而且它并未牺牲性能,反而在多个指标上表现出色。这主要得益于以下三点:


第一,模型规模庞大:DeepSeek拥有671B的参数量,远超Llama3.1的405B,奠定了强大的基础能力。


第二,高质量训练数据:DeepSeek对训练数据进行了精细化处理,从数据筛选、清洗到预处理都力求完美。其训练数据总量高达14.8T令牌,相当于用最优质的食材制作了一道精心烹调的大餐。


第三,多令牌预测:传统的大语言模型一次只能预测一个令牌,而DeepSeek可以同时预测多个连续的令牌。这不仅提高了效率,还能更好地把握令牌之间的依赖关系。


这些反常识的创新,正在改写大模型的竞争规则—未来的AGI之战,或许不再是“谁拥有更多GPU”,而是“谁能更聪明地利用每一焦耳的计算能量”。当同行仍在参数量的数字游戏中内卷时,DeepSeek已用数学之美证明:真正的智能突破,往往始于对行业共识的勇敢背叛。


这些创新汇集起来其实就是DeepSeek高度逼真和流畅的表达能力,而这种表达其实就是AGI,也是DeepSeek所一直追求的。


对资源效率的极致追求


此外,DeepSeek 是幻方量化于 2019 年成立的 AI 公司,光先期投入就逾 10 亿元资金,幻方量化在 2021年的资产管理规模更提升至 1000 亿元人民币,这般阔绰的手笔, 怎会与“贫穷”产生关联?


细读 DeepSeek 团队的论文,每个段落都体现出对资源效率的极致追求,说白了就是省。


为了节约算力,DeepSeek 直接削减监督微调,用基座模型生成数据做冷启动,将 PPO 里的价值模型砍了,改成“群策群力”的 GRPO,再加上共享专家、分流算法、跨节点通信等,每项实打实的技术创新的背后都指向一件扎心的事实,那就是缺显卡,显卡不足也就意味着算力不足。


算力制约大模型的发展早已是行业公开的秘密。


早在 2023 年,OpenAI CEO 奥尔特曼就坦言, 公司面临“极端 GPU 短缺”。据推测,GPT—4.5 的训练使用了 3 万到 5 万张英伟达 H100 GPU,训练成本 7.5 亿到 15 亿美元,缺少算力直接导致了 GPT—5 的难产,它只能分阶段发布。


病急乱投医的 OpenAI 甚至想到和台积电合资建厂以解燃眉之急,据《纽约时报》报道,OpenAI CEO 奥尔特曼 2024 年访问了台积电总部,提出了一个宏大的算力构想,预计需耗资 7 万亿美元及多年时间建设 36 座半导体工厂和数据中心。只不过在台积电内部邮件中奥尔特曼本人被调侃为“播客兄弟”(含义近似于自大的网络喷子),这项过于大胆的计划也被台积电认为荒谬,最终只能胎死腹中。


对比 DeepSeek 的处境看 OpenAI 的哭穷,那就是彻头彻尾的“凡尔赛”,因为二者面对的根本不是同一种匮乏。限制 OpenAI的是英伟达的产能上限与自身购买资金的不足,而 DeepSeek 面对的则是人为制造的匮乏—美国层层加码、步步紧逼的对华芯片出口管制。


2022 年 8 月 31 日,美国政府命令英伟达、AMD 对中国禁售部分高性能 GPU,包括英伟达的 A100、H100,以及 AMD 的MI250,等等。


2023 年 10 月 17 日,美国商务部宣布了对中国新的科技封锁政策,不仅顶级的 H100 芯片不可以卖给中国,性能稍低的H800 和 A800 也不允许销售。


2025 年 1 月 13 日,美国政府发布《AI 扩散暂行最终规则》, 将全球划分为三个不同“层级”的区域,包括中国在内的很多国 家和地区位列第三层级,这些国家和地区的实体将被完全禁止进 口任何类型的 AI 芯片,特别是高性能 GPU。


尽管早在 2023 年就有权威媒体报道,作为 DeepSeek 的母公司,幻方量化是中国拥有超过 1 万张 GPU 的 5 家公司中的一家, 其也是其中唯一一家不属于科技“大厂”的企业,但其拥有的只是性能被阉割的 H800,而且如前文所述,这款芯片在 2023 年底就已经被禁售。比起 OpenAI 预训练动辄使用三五万张显卡的算力,DeepSeek 颇有前瞻性的囤卡行为依然显得杯水车薪。


因此,重重封锁之下,DeepSeek 的表现就显得格外亮眼:


DeepSeek—V3 训练仅使用了 278.8 万 H800 GPU 小时。按照每 H800 GPU 小时租金 2 美元计算,其总训练成本仅为 557.6 万美元。而对比之下,和其类似体量的 Llama 3 模型的训练则用了 3930 万 H100 GPU 小时。按算力计算,这大约够训练DeepSeek—V3 14 次。考虑到 H100 GPU 的租金价格要比 H800 GPU 的更高,DeepSeek—V3 的训练成本大约仅有 Llama 3 模型的 1/20,而其在性能方面毫不逊色于后者,甚至有所超越。


DeepSeek—V3 的技术报告还透露了一个常常被人忽略的细节, 它是仅训练一次就成功的,如此高的通过率在业内也属罕见,通 过率越高也就意味着重复工作做得越少,换句话说,就是省算力,省时间,省成本。


既然训练成本降下来了,模型的使用成本自然也就随之降低。


目前,DeepSeek—V3 的 API 服务输入价格为每百万令牌 0.15 美元,输出价格为每百万令牌 0.3 美元;对比之下,GPT—o1 模型的输入价格为每百万令牌 2.5 美元,输出价格为每百万令牌 10 美元;Claude—3.5—Sonnet 模型的输入价格为每百万令牌 3 美元, 输出价格为每百万令牌 15 美元。也就是说,DeepSeek—V3 已经成功将价格降到了主要对手的 1/10 以下。


所以当从算力的角度重新审视 DeepSeek 所做的工作时,我们会发现,其取得成就与艰难程度不亚于在人工智能的战场上打了一场“上甘岭战役”。


【新书推荐】


中信出版 

2025年6月


内容简介:本书作为国内较早系统论述 DeepSeek 技术与创新发展逻辑的专著,以工具理性和价值理性并重的视角,对 DeepSeek 的发展进行回顾、反思与展望,深入探究其对全球经济、商业、科技和社会发展的深远影响。我们期望通过本书,激励更多怀揣“让世界更美好”梦想的创新者,创造出更多像 DeepSeek 这样卓越的企业,为全球创新搭建更优质的平台,让人类共享更多繁荣与福祉。


作者介绍:陈劲,清华大学经济管理学院创新创业与战略系教授、技术创新研究中心主任,中国管理科学学会副会长,整合式创新、有意义的创新以及“基于核心能力的企业创新生态系统”理论的提出者,全国创新争先奖获得者,2021年、2023年入选“全球最具影响力的50位管理思想家”。


安健,君彧咨询创始人、阿里巴巴前高级营销专家、《哈佛商业评论》内容总监。


责任编辑:七禾研究

【免责声明】本文仅代表作者本人观点,与本网站无关。本网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

本网站凡是注明“来源:七禾网”的文章均为七禾网 www.7hcn.com版权所有,相关网站或媒体若要转载须经七禾网同意0571-88212938,并注明出处。若本网站相关内容涉及到其他媒体或公司的版权,请联系0571-88212938,我们将及时调整或删除。

联系我们

七禾研究中心负责人:翁建平
电话:0571-88212938
Email:57124514@qq.com

七禾科技中心负责人:相升澳
电话:15068166275
Email:1573338006@qq.com

七禾产业中心负责人:洪周璐
电话:15179330356

七禾财富管理中心
电话:13732204374(微信同号)
电话:18657157586(微信同号)

七禾网

沈良宏观

七禾调研

价值投资君

七禾网APP安卓&鸿蒙

七禾网APP苹果

七禾网投顾平台

傅海棠自媒体

沈良自媒体

© 七禾网 浙ICP备09012462号-1 浙公网安备 33010802010119号 增值电信业务经营许可证[浙B2-20110481] 广播电视节目制作经营许可证[浙字第05637号]

认证联盟

技术支持 本网法律顾问 曲峰律师 余枫梧律师 广告合作 关于我们 郑重声明 业务公告

中期协“期媒投教联盟”成员 、 中期协“金融科技委员会”委员单位