近日,DeepSeek研究团队再放大招,公开NSA算法。同日,马斯克发布Grok 3模型,试与DeepSeek和Open AI来比高。此外,Open AI首款AI ASIC芯片即将完成,有望明年量产.....
DeepSeep之风正盛,将全球科技产业的重心从训练推向AI时代下半程的推理阶段。随着算力需求节节高升,ASIC芯片在这股气势汹涌的浪潮之下,得以有更多机会在定制化场景中大显身手。值此之际,属于ASIC定制化芯片的时代之幕是否由此拉开?

打破AI芯片的旧范式
2025年开年以来,一场由DeepSeek引发的“科技风暴”迅速席卷全球:英伟达称DeepSeek-R1是最先进的大语言模型;亚马逊和微软宣布接入DeepSeek-R1模型;DeepSeek-R1、V3、Coder等系列模型陆续上线国家超算互联网平台;微信宣布接入DeepSeek,上线AI搜索功能......
在各类“DeepSeek”消息满天飞的背后,一方面反映出全球科技企业在这一开源AI模型到来后的焦虑或兴奋,但另一更为深层的原因是:DeepSeek的出现打破了一直以来模型对于硬件算力预设的包袱,或将塑造AI产业发展的全新生态。
芯片(piàn)作(zuò)为(wèi)支(zhī)撑(chēng)人(rén)工智能发展的算力底座,与大模型的训练效率和推理速度直接相关,其中自去年下半年迅速崛起的ASIC尤为值得关注。
ASIC芯片是指专为特定应用而设计的集成电路。由于ASIC芯片针对特定算法和应用进行优化设计,它在特定任务上的计算能力强大,通常具有较高的能效比。在AI领域,AI ASIC芯片也叫AI算力专用芯片,是(shì)作(zuò)为(wèi)人(rén)工(gōng)智(zhì)能(néng)产(chǎn)业(yè)链(liàn)的上游产品之一,为整个人工智能的大模型训练和推理提供算力支撑,主要面向深度学习、神经网络训练/推理等AI任务而定制。DeepSeek 的问世,提供了“极致压缩+高效强化训练+AI推理算力大幅简化”的低成本新模式,推动ASIC时代加速到来。

图为中昊芯英高性能TPU芯片“刹那”
“DeepSeek 将软硬件协同优化推向了极致的路径,本质上打破了AI芯片领域‘生态霸权决定市场格局’的旧范式,开启了‘算法定义硬件’的新竞争维度。”中昊芯英解决方案架构师顾立程向《中国电子报》记者表示。
具体而言,DeepSeek对ASIC芯片的影响体现在以下三方面。
一是在技术路线重构方面,产生了架构定义权的转移。过去开发者因CUDA工具链完备性被迫绑定NVIDIA硬件,但DeepSeek绕过了CUDA的优化策略,证明直接操作PTX指令的收益已超越工具链便利性成本,DeepSeek的成功实践验证了算法主导的硬件设计范式,为TPU等ASIC芯片突破生态桎梏提供了方法论。
二是为生态破局提供契机,从"适配生态"到"定义生态"。CUDA生态的依赖降低后,ASIC芯片将能通过提供定制化工具链、优化编译器等方式,吸引到更多开发者,尤其是已有意愿做底层优化的客户。此外,AI芯片在架构设计上更能灵活适应新(xīn)的(de)本(běn)土(tǔ)趋(qū)势(shì)和(hé)需(xū)求(qiú),比(bǐ)如(rú)支(zhī)持(chí)动(dòng)态(tài)稀(xī)疏(shū)计(jì)算(suàn)或(huò)混(hùn)合(hé)精(jīng)度(dù)。
三(sān)是(shì)ASIC芯(xīn)片(piàn)商(shāng)业(yè)价(jià)值(zhí)的(de)跃(yuè)升(shēng),从(cóng)"替(tì)代(dài)品(pǐn)"到(dào)"最(zuì)优(yōu)解(jiě)"。当(dāng)硬(yìng)件(jiàn)性(xìng)能(néng)差(chà)异(yì)足(zú)够(gòu)大(dà)时(shí),细(xì)分(fēn)领(lǐng)域客(kè)户(hù)将(jiāng)更(gèng)愿(yuàn)意(yì)为(wèi)ASIC芯(xīn)片(piàn)的(de)定(dìng)制(zhì)优(yōu)化(huà)方(fāng)案(àn)买(mǎi)单(dān)。尤(yóu)其(qí)是(shì),DeepSeek式(shì)技(jì)术(shù)路线(xiàn)能(néng)与(yǔ)国(guó)产(chǎn)ASIC芯(xīn)片(piàn)协(xié)同(tóng),通(tōng)过(guò)本(běn)土(tǔ)模(mó)型(xíng)与(yǔ)算(suàn)力(lì)厂(chǎng)商(shāng)间(jiān)更(gèng)紧(jǐn)密(mì)的(de)合(hé)作(zuò)、更(gèng)极(jí)致(zhì)的(de)适(shì)配(pèi)优(yōu)化(huà),为(wèi)客(kè)户(hù)提(tí)供(gōng)最(zuì)具(jù)性价比的算力。
算力的风吹向推理
AI计算分为训练和推理两种。在AI大模型的下半场,算力需求的重心正在逐步从训练转向推理。在温哥华NeurIPS大会上,OpenAI联合创始人兼前首席科学家Ilya Sutskever曾作出“AI预训练时代将终结”的判(pàn)断(duàn)。而(ér)DeepSeek的(de)到(dào)来(lái),也(yě)预(yù)示(shì)着(zhe)这(zhè)一(yī)过(guò)程(chéng)的(de)临(lín)近(jìn)。
就(jiù)在(zài)2月(yuè)18日(rì),DeepSeek研(yán)究(jiū)团(tuán)队(duì)在(zài)海(hǎi)外(wài)社(shè)交(jiāo)平(píng)台(tái)X上(shàng)发(fā)布(bù)了(le)一(yī)篇(piān)关于(yú)NSA(原(yuán)生(shēng)稀(xī)疏(shū)注(zhù)意(yì)力(lì))的(de)技(jì)术(shù)论(lùn)文。一(yī)经(jīng)发(fā)布(bù),迅(xùn)速(sù)引(yǐn)发(fā)广(guǎng)泛(fàn)关注(zhù)。据(jù)悉(xī),新(xīn)注(zhù)意(yì)力(lì)机(jī)制(zhì)NSA专(zhuān)为(wèi)长(zhǎng)文本(běn)训(xun)练(liàn)与(yǔ)推(tuī)理(lǐ)设(shè)计(jì),能(néng)利(lì)用(yòng)动(dòng)态(tài)分(fēn)层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。
对于ASIC而言,机会蕴藏在从业者阵营的扩张。在ASIC芯片的分支中,TPU和LPU这两类芯片都有望在DeepSeek的浪潮下受益。

LPU与GPU(来源:Groq官网)
早在今年1月就有消息传出,美国推理芯片公司Groq已经在自己的LPU芯片上实机运行DeepSeek,效率比最新的H100快上一个量级,达到每秒24000token。值得关注的是,Groq曾于2024 年12月在沙特阿拉伯达曼构建了中东地区最大的推理集群,该集群包括了19000个Groq LPU。
而在TPU方面,据产业链相关人士透露,谷歌TPU芯片去年的生产量已经达到280万到300万片之间,成为全球第三大数据中心芯片设计厂商。
随着AI大模型进入“下半场”,逻辑推理成为新的焦点。这一阶段对算力的需求虽然不如训练阶段那么高,但对能效和成本的要求更为严格。ASIC芯片由于其高度优化的设计和针对特定任务的高效性,在AI推理领域具有显著优势。“AI专用芯片推理服务器的占比将逐步提升,这将使得AI专用芯片在推理市场上占据重要地位。”顾立程表示。
GPU地位被撼动?
DeepSeek的出圈,最先带来的影响是令长期占据算力主力军地位的GPU陷入焦虑,尤其是全球最大数据中心GPU供应商英伟达的股价和市值曾一度下挫。相比之下,被视为挑战GPU“挑战者”的ASIC芯片则迎来了更上一层楼的时机。那么,这是否预示着未来AI芯片的版图将出现剧烈的反转?

就在DeepSeek让行业对AI算力需求的视线中心从训练转向推理之际,一个被称为“杰文斯悖论”的经济学理论被业界重新提及。1865年,经济学家杰文斯提出:当技术进步提高了效率,资源消耗不仅没有减少,反而激增。例如,瓦特改良的蒸汽机让煤炭燃烧更加高效,但结果却是煤炭需求飙升。
上述理论与当下GPU芯片遇到的情况类似。面对“DeepSeek危机”的英伟达股价曾一度大跌17%,但截止2月19日已恢复到此前高位水平,从侧面反映了AI行业对GPU芯片需求的认知变化。AI推理芯片初创企业Groq公司CEO乔纳森·罗斯在近日的访谈对此事发表了看法,他认为英伟达的股票不应该为此下跌。这与市场的价值衡量无关,而只是市场中一种人气的较量。“实际上,我认为英(yīng)伟(wěi)达(dá)会(huì)卖(mài)掉(diào)他(tā)们生产的每一块用于训练的GPU。你会看到相同数量的 GPU仍然会被售出,但对训练的需求会增加。因为对推理的需求越多,需(xū)要(yào)的(de)训(xun)练(liàn)芯(xīn)片(piàn)就(jiù)越(yuè)多(duō),反(fǎn)之(zhī)亦(yì)然(rán)。”
一(yī)般(bān)来(lái)说(shuō),被(bèi)广(guǎng)泛(fàn)采用(yòng)的(de)英(yīng)伟(wěi)达(dá)GPU芯(xīn)片(piàn)更(gèng)多(duō)被(bèi)用(yòng)来(lái)进(jìn)行(xíng)AI大(dà)模(mó)型(xíng)训(xun)练(liàn),而(ér)到(dào)了(le)推(tuī)理(lǐ)阶(jiē)段(duàn),一(yī)些(xiē)厂(chǎng)商(shāng)开(kāi)始(shǐ)着(zhe)力(lì)开发自己的AI推理芯片,其中多为ASIC定制化芯片。不同的是,在DeepSeep助力下,以前行业更关注决定下限的训练阶段,如今或将更多注意力放到决定上限的推理阶段。有业内人士指出,GPU与ASIC之间并非简单的替代(dài)关系(xì)。
不过,虽然作为开源推理模型的DeepSeek令推理需求受到更多关注,但ASIC芯片的崛起将在训练和推理两个角度都会对算力芯片的竞争格局带来深远(yuǎn)变(biàn)化(huà)。
从(cóng)训(xun)练(liàn)角(jiǎo)度(dù)来(lái)看(kàn),过(guò)去(qù)传(chuán)统(tǒng)GPU凭(píng)借(jiè)其(qí)强(qiáng)大(dà)的(de)并(bìng)行(xíng)计(jì)算(suàn)能(néng)力(lì),在(zài)AI训(xun)练(liàn)阶(jiē)段(duàn)占(zhàn)据(jù)了(le)主导(dǎo)地(de)位(wèi)。然(rán)而(ér),AI专(zhuān)用(yòng)芯(xīn)片(piàn)针(zhēn)对(duì)特(tè)定(dìng)场(chǎng)景(jǐng)设(shè)计(jì),在(zài)拥(yōng)有(yǒu)配(pèi)套(tào)的(de)软(ruǎn)硬(yìng)件(jiàn)全栈(zhàn)生(shēng)态(tài)下(xià),AI专(zhuān)用(yòng)芯(xīn)片(piàn)算(suàn)力(lì)集群(qún)的(de)算(suàn)力(lì)利(lì)用(yòng)效(xiào)率(lǜ)更(gèng)高(gāo),功(gōng)耗(hào)更(gèng)低(dī)。随(suí)着(zhe)软(ruǎn)件(jiàn)生(shēng)态(tài)的(de)逐(zhú)步(bù)成(chéng)熟(shú),AI专(zhuān)用(yòng)芯(xīn)片(piàn)有(yǒu)望(wàng)更(gèng)广(guǎng)泛(fàn)地(de)应(yīng)用(yòng)于(yú)AI训(xun)练(liàn),与(yǔ)传(chuán)统(tǒng)GPU形(xíng)成(chéng)竞(jìng)争(zhēng)态(tài)势(shì)。另(lìng)外(wài),随(suí)着(zhe)AI专(zhuān)用(yòng)芯(xīn)片(piàn)使(shǐ)用(yòng)的(de)规(guī)模(mó)扩(kuò)大(dà),也(yě)会(huì)让(ràng)AI专(zhuān)用(yòng)芯(xīn)片(piàn)的(de)单(dān)芯(xīn)片(piàn)成(chéng)本(běn)逐(zhú)渐(jiàn)降(jiàng)低(dī),为智算中心建设带来切切实实的采购成本降低,并提升了应用端的能力。
“AI专用芯片的崛起将使得算力芯片的竞争格局更加多元化和复杂化。”在顾立程看来,在训练和推理两个领域,AI专用芯片都将与GPU展开激烈竞争,挑战其霸主地位。同时,AI专用芯片的应用前景也极为广阔,有望在数据中心、云计算、人工智能等多个领域发挥重要作用。