

官方披露的信息令人印象深刻:百万字超长上下文处理能力,在Agent智能体能力、世界知识和推理性能上均在国内和开源领域保持领先,Pro版本的Agent编程能力已达当前开源模型最佳水平。
但真正让业界震动的,是定价页面下方一行不起眼的小字:“受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。”
这句话的信息量,远比任何一项技术参数都要大。它意味着中国最顶尖的开源大模型,已经将自己的成本结构和定价逻辑,与国产算力的供给节奏深度绑定。一家大模型公司把未来降价的前提,直接指向某一款国产芯片集群的量产进度,这在行业里并不常见。
与此同时,华为同步宣布:昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能;昇腾A3超节点全系列产品已全面适配,并提供基于昇腾硬件的训练参考实现。
这是中国AI产业一个阶段性的历史节点,标志着中国AI产业正在以一种切实的方式,摆脱对西方技术生态的单一依赖。
一块小小的芯片,牵动着大国博弈,也承载着无数科技人的梦想。从英伟达一家独大,到国产芯片集体突围,这场波澜壮阔的产业变局,值得我们细细梳理。
时间回到21世纪初。彼时,GPU(图形处理器)不过是电脑上负责渲染画面的配件,英伟达也只是一家颇有名气的显卡厂商。没有人能预见到,这家公司将在二十年后成为左右全球AI格局的核心力量。
英伟达推出了CUDA(统一计算架构),为GPU赋予了通用计算能力。这一举措在当时并未引起太大波澜,但它埋下了一颗关键的种子,GPU不再只能渲染游戏画面,它的并行计算能力可以被用于科学计算、数据处理,乃至后来改变世界的深度学习。
2012年,AlexNet横空出世。这个深度神经网络在ImageNet图像识别竞赛上以碾压性的优势夺冠,识别精度超越第二名近11个百分点。它的成功秘诀之一,正是使用了英伟达GPU进行训练。自此,GPU成为深度学习研究者的标准配置。
2017年,AlphaGo击败围棋世界冠军柯洁,AI浪潮席卷全球,GPU的需求随之井喷。ChatGPT的横空出世则将这一热潮推向顶峰。英伟达从一家显卡公司,一跃成为驱动人类AI革命的基础设施提供商,市值在数年内从约5000亿美元飙升至2025年7月突破4万亿美元,成为人类商业史上第一家达到这一体量的企业。
在传统叙事中,英伟达的护城河,常被简化成一个“先发优势”的故事,做了二十年,生态强,所以无敌。可这类解释回避了一个扎心的问题:为什么AMD的ROCm做了十年仍然边缘?为什么英特尔在数据中心GPU市场屡战屡败?
答案藏在更深的地方,CUDA真正的统治力,来自其为全球AI产业确立的“事实标准”。
GPU的并行计算架构,天然契合深度学习中大量矩阵运算的需求,而CUDA在此基础上为开发者提供了一整套编程工具链:算子库(cuBLAS、cuDNN)、分布式通信库(NCCL)、推理引擎(TensorRT)……这套生态经过近二十年积累,已经渗透到AI研发的每一个环节。
PyTorch、TensorFlow等主流框架深度适配CUDA,全球绝大多数AI开发者在CUDA生态下工作。有人形象地把CUDA比作AI时代的Windows操作系统:你可以不喜欢它,但离开它,几乎寸步难行。一旦离开这个体系,意味着重写算子、重做精度校准、重新调参,工程迁移成本以月计。
这种“事实标准”一旦建立,便会形成强大的自我强化效应。英伟达在全球AI加速器市场的份额长期保持在80%至90%以上,2025年全年营收达到2159亿美元,净利润率高达55%,是同期芯片行业盈利能力最强的企业。
更深层的问题在于,当所有人都在CUDA生态下工作时,英伟达实际上掌握了AI产业的基础设施定价权。无论是技术路线的选择,还是训练成本的高低,都在某种程度上受制于这一家公司。
2022年10月,美国商务部宣布对中国实施高端芯片出口管制,限制英伟达A100和H100等顶级AI芯片向中国出口。这一政策的出台,对中国AI产业而言是一次猝不及防的冲击。
英伟达随即推出专门面向中国市场的合规版本——A800和H800,通过降低芯片间互联带宽来规避管制门槛。然而,好景不长,美国随后进一步收紧标准,连这些降配版也被纳入管制范围。英伟达再推H20,但这款专为中国设计的芯片,在某些训练场景下的性能,已与顶级产品相去甚远。
禁令的效果是复杂的。在短期内,它确实对中国AI产业造成了巨大的冲击,算力短缺成为制约大模型训练的现实瓶颈。但从更长的时间维度来看,这道闸门的关闭,反而成为一种倒逼力量。
外部压力的出现,让国产替代从“可以考虑的选项”变成了“不得不走的道路”。
政策端,国家大力推动半导体产业自立自强,将芯片AI列为“卡脖子”技术重点攻关方向。新基建、智算中心建设持续提速,国产化采购比例要求逐步提升。
需求端,AI模型训练对算力的渴求持续膨胀。根据公开数据,今年3月,国内AI模型的周调用量已突破Kaiyun官方入口12.96万亿Token,是美国的1.6倍。如此庞大的国内算力需求若完全依赖进口,供应链风险将难以承受。
市场端,Bernstein研究2025年7月发布的研报预计,国内AI芯片市场的本土化率将从2023年的约17%增长至2027年的55%。这是一场巨大的市场机会,也是国产芯片厂商必须抓住的窗口期。
根据IDC数据,2024年中国AI芯片供应量约280万张,国产芯片约82万张,市占率约29%。进入2025年,这一数字出现了明显加速:2025年国产AI加速卡总出货量约165万张,市场份额攀升至41%。华为昇腾以近半的出货量位居第一,阿里平头哥紧随其后,百度昆仑芯与寒武纪并列第三。
这组数字背后的含义是,在不到三年的时间里,国产AI芯片在中国市场的份额从不足三成跃升至四成以上,“不可用”正在成为过去式,“可替代”正在成为现实,而“在某些场景下领跑”也不再只是口号。
当DeepSeek V4宣布多家国产芯片“首发即适配”时,外界的第一反应是震惊。但如果你过去四年一直盯着这条赛道,你会知道这个结果并非天降奇兵,这是一场系统性动员的阶段性答卷。从技术路线和产业角色来看,国产芯片厂商大致可以分为三类企业。
华为昇腾是唯一走通“软硬闭环”的玩家。从昇腾310、910,到910B、910C,再到2026年开始量产的昇腾950系列,华为以近乎“一年一代”的节奏推进芯片迭代,并规划了昇腾960、970的后续演进路线的硬件指标颇具竞争力。据媒体披露,昇腾950单卡算力是英伟达H20的约2.87倍,搭载了华为自研国产HBM(高带宽内存),且支持FP4低精度推理。这意味着在相同的显存条件下,能运行更大、更复杂的AI模型,且速度更快、成本更低。
华为的野心不只是芯片本身。围绕昇腾,华为构建了从硬件到软件的完整生态:CANN(异构计算架构)是对标CUDA的软件底座,MindSpore框架覆盖全流程训练与推理,Atlas超节点系统则提供面向大规模训练的超算集群解决方案。2025年,CANN正式全面开源,向全球开发者开放算子库、通信库等核心代码。
更重要的信号来自运营商侧,中国移动2026-2027年AI超节点设备集中采购项目,采购规模达6208张AI加速卡、总金额约20.6亿元,并明确指定采用华为CANN生态方案。
寒武纪是中国AI芯片行业最典型的“理想主义者”。2016年成立就All in AI,2020年登陆科创板成为“AI芯片第一股”。但上市后是漫长的至暗时刻:思元系列出货惨淡,营收乏力,亏损持续。
这一阶段,大模型推理需求爆发,推理对软件生态的依赖远低于训练,需要的是一块能高效运行模型的卡。这让思元590找到了“推理优先”的切口。2025年,公司营收同比增长453.21%,是国内唯一实现全年盈利的纯 AI 芯片设计公司。
这两家出身互联网大厂的公司走得都是“云厂自研”路线,用自家海量业务做练兵场。平头哥推出含光800系列,在互联网AI推理场景深度适配阿里云业务;昆仑芯则与百度AI生态深度绑定。
它们构成了国产AI芯片最活跃也最不确定的群体。海光信息基于x86生态兼容的路线,吃透“国产化替代”中“可兼容”的红利;摩尔线程选择全力兼容CUDA,用最小迁移成本吸引开发者;沐曦和天数智芯坚持自研架构,聚焦推理和边缘计算,避免在英伟达火力最密集的训练战场硬刚。
值得注意的是,这些企业在DeepSeek-V4发布的同一天完成了Day0级别的适配,即模型发布的当天,立刻完成国产芯片支持,适配代码开源至GitHub社区。这种响应速度,本身便是国产AI软件生态成熟度的体现。
4月24日下午,华为特地举办了一场专题直播解读DeepSeek-V4技术,并披露昇腾950性能表现。这场直播背后隐藏着一个重大信号:
DeepSeek-V4不只是在昇腾上跑通了,而是经过了系统性的底层优化。
技术层面,DeepSeek的工程团队在V4中开发了一套“细粒度专家并行(EP)”方案,优化了AI模型在芯片上的调度算法,让计算与通信能像流水线一样重叠进行。根据DeepSeek发布的技术报告,这套方案已在英伟达GPU与华为昇腾NPU两套体系上完成验证,通用推理任务可实现1.5到1.73倍加速,在延迟敏感场景下最高达1.96倍。
回顾过去多年,绝大多数中国大模型公司的做法是“兼容路径”,即在英伟达CUDA体系上开发核心代码,再同步做一个国产芯片的适配层。本质上仍然是以CUDA为第一公民。这种适配更多是政治选择和供应链备份,不是技术主动。
DeepSeek的不同之处在于,它并没有完全依赖这种兼容路径。根据多方报道,DeepSeek-V4的推理部署主要使用了华为昇腾系列国产芯片,并在技术报告中将昇腾NPU与英伟达GPU并列列出,这是中国顶级开源模型首次在官方文档中以平等地位对待两套算力体系。
就在DeepSeek-V4发布前9天,英伟Kaiyun官方入口达创始人黄仁勋在专访中坦言:如果DeepSeek先在华为平台上发布,对美国而言将是灾难性的。这种担忧并非无的放矢,一旦顶级开源模型能够在非英伟达体系上稳定运行,开发者就可能开始改变习惯。
这正是DeepSeek-V4与昇腾950携手的深层意义:它让CUDA不再显得完全不可替代。CUDA构建的城墙,第一次出现了线
站远一点看,过去四年发生的变化,与其说是国产替代,不如说是一场体系性脱钩与再嵌入。
禁令之前,全球AI芯片市场是一条单轨:英伟达设计最先进的芯片,台积电用最先进的制程制造,全球AI企业采购,美国掌控整条链。中国企业在其中扮演买家,没有议价权,没有定义权。
禁令之后,这条单轨被硬生生切成两条:一条是英伟达主导的全球链,但中国市场被排除在最先进产品的供应之外;另一条是正在形成中的中国链,从设计到制造到软件栈,都在试图构建内循环。
这种“双轨制”的成形,才是未来十年AI产业最根本的地缘技术格局变化。DeepSeek V4跑在昇腾上,是这一格局下的标志性事件,它意味着中国链上的应用层和算力层,开始能够支撑一个顶级开源模型的完整生命周期。
但这绝不代表中国链可以平替全球链。双轨制的本质特征是:两条轨都在跑,但跑的节奏不同、速度不同、约束条件不同。全球链在先进制程和软件生态上仍然领跑,中国链在特定场景的规模和性价比上快速追赶。
未来的竞争不是“谁消灭谁”,而是双轨并行下的“不对称竞争”。这种格局对每一个AI产业的参与者都提出了新命题:你的技术栈,赌哪条轨?你的供应链,能承受哪条轨的风险?你的市场,需要哪条轨的算力?
无论如何,四年时间,从一个完全依赖外部供应的市场,到能够支撑DeepSeek V4这样的模型在国产芯片上首发适配,这个发展速度在全球半导体产业史上都属罕见。
但罕见不等于神话。真正值得关注的问题,从来不是中国芯片什么时候全面超越英伟达,而是中国AI产业什么时候能拥有一个足够可用、足够可控、持续迭代的自主算力基座?DeepSeek V4和昇腾的这次握手,意味着那个时间点可能比大多数人预期的更近。
而对于英伟达来说,失去一个占据其全球营收重要份额的市场,不会致命,但会永久性地改变它的增长叙事。一家习惯了垄断利润的公司,突然面对一个不再别无选择的市场,它的定价权、话语权和产业定义权,都将开始松动。
这才是这场博弈最深层的意义:不是谁赢了谁,而是一个曾经封闭的体系,终于被撬开了竞争的缝隙。而竞争,最终会让所有人受益。