2025-02-17 11:00:07

DeepSeek整顿AI圈，GPU增长焦虑如何解？

价格亲民的DeepSeek-V3及R1分别在2024年12月和2025年1月上线，随之而来，全球最大数据中心GPU供应商英伟达的股价和市值应声下挫。根据Stock Analysis数据，以月为单位，英伟达市值在2024年12月和2025年1月分别下降2.86%和10.59%。当地时间1月27日，英伟达股价较上一个交易日（1月24日）下跌近17%，市值蒸发5920亿美元。

尽管2月英伟达市值回调，其股市际遇仍值得警醒。2024年以来，资本市场对英伟达信心满满(mǎn)，上(shàng)一(yī)次(cì)市(shì)值(zhí)跌(diē)去(qù)双(shuāng)位(wèi)数(shù)，还(hái)是(shì)2023年(nián)9月(yuè)。去(qù)年(nián)11月(yuè)，英(yīng)伟(wěi)达(dá)一(yī)度(dù)取(qǔ)代(dài)苹(píng)果(guǒ)成(chéng)为(wèi)全球(qiú)市(shì)值(zhí)第一的上市公司。这份信心，为何出现了动摇？

在OpenAI推出的ChatGPT卷起AIGC浪潮之初，大模型的参数规模与GPU的集群规模深度绑定。Omdia分析称，微软在2024年购买了48.5万块英伟达Hopper GPU，OpenAI o1大模型就是在微软Azure的AI基础设施训练。Meta在2022年构建了16000块英伟达A100组成的算力集群，以支持Llama和Llama2大模型的发展，又在2024年3月宣布建设两个由24576块英伟达H100 GPU组成的集群，以(yǐ)训(xun)练(liàn)Llama3。

如(rú)此(cǐ)高(gāo)昂(áng)的(de)训(xun)练(liàn)成(chéng)本(běn)，对(duì)于(yú)大模型厂商的ROI（投资回报率）是一个巨大的考验。有报道称，OpenAI预计2024年营收37亿美元，亏损50亿美元。红杉资本投资人曾估计，2023年人工智能行业在用于训练先进人工智能模型的英伟达芯片上花费了500亿美元，但仅带来30亿美元的收入。因而，对于大模型开(kāi)发商来说，除了拓展服务场景以提升盈利能力，如何降低大模型的训练和部署成本同样关键。

这也是为什么DeepSeek-V3一经推出，就备受市场青睐——它让业(yè)界看到了大模型训练从“GPU堆料”走向“精耕细作”的可能性。

具体来看，6710亿参数的DeepSeek-V3在配备2048块英伟达H800 GPU的(de)集群(qún)上(shàng)训(xun)练(liàn)，整(zhěng)个(gè)训(xun)练(liàn)流(liú)程(chéng)用(yòng)时(shí)278.8万(wàn)个(gè)H800 GPU小(xiǎo)时(shí)，总(zǒng)成(chéng)本(běn)为(wèi)557.6万(wàn)美(měi)元(yuán)（按(àn)照(zhào)每(měi)GPU小(xiǎo)时(shí)2美(měi)元(yuán)的(de)租(zū)用(yòng)价(jià)格(gé)计(jì)算(suàn)）。在(zài)GPU用(yòng)量(liàng)、训(xun)练(liàn)用(yòng)时、算力成本上，较同等性能的闭源模型大幅缩减。

之所以能用如此少量的计算资源完成大规模参数量的训练，得益于DeepSeek团队对算法、训练框架和硬件的优化协同。

从架构来看，DeepSeek-V3沿用了在DeepSeek-V2进行验证的多头潜在注意力（MLA）和DeepSeek MoE进行具有成本效益的训练。多头潜在注意力机制通过将键值（KV）缓存压缩为潜在向量，显著降低了计算成本，加快了推理速度并提高了吞吐量。同时，专家混合（MoE）架构通过稀疏计算实现高效推理。

在训练精度上，Deepseek-V3支持FP8计算和存储，在加快训练速度的同时，减少了对GPU内存的使用。

在训练(liàn)框(kuāng)架(jià)上(shàng)，Deepseek-V3团(tuán)队(duì)打(dǎ)造(zào)了(le)HAI-LLM框(kuāng)架(jià)，并(bìng)进(jìn)行(xíng)了(le)细(xì)致(zhì)的(de)工(gōng)程(chéng)优(yōu)化(huà)。首(shǒu)先(xiān)是(shì)设(shè)计(jì)了(le)DualPipe（双(shuāng)管(guǎn)道）算法以实(shí)现(xiàn)高(gāo)效(xiào)的管道并行，并实现了计算和通信重叠（而不是按照串行模式，完成计算再进行通信），从而解决了跨节点专家并行带来的巨大通信开销问题。其次是开发了跨节点全对全通信内核，使InfiniBand（IB）和NVLink的通信充分重叠，仅需20个流式多处理器就能充分利用IB和NVLink的带宽。其三是优化了内存占用，在不使用成本高昂的张量并行的情况下，也能够训练DeepSeek-V3。

训练成本的压缩，使DeepSeek能够提供远低于其对标的闭源模型（DeepSeek-V3性能比肩GPT-4o, DeepSeek-R1性能对标OpenAI o1）的API服务价格。

记者计算得知，DeepSeek-V3的每百万输入tokens价格约为GPT-4o的5.5%（缓存命中）/11%（缓存未命中），每百万输出tokens价格约为GPT-4o的11%。DeepSeek-R1的每百万输入tokens价格约为OpenAI o1的1.8%（缓存命中）/3.7%（缓存未命中），每百万输出tokens价格约为OpenAI o1的3.7%。

DeepSeek与对标的OpenAI模型API价格对比

来源：中国电子报根据DeepSeek、OpenAI官网报价整理，以2月14日汇率为准

GPU规格和用量降下来了，大模型价格也便宜了，这对于产业界来说是一个好消(xiāo)息(xi)，对(duì)于(yú)尖(jiān)端(duān)GPU厂(chǎng)商(shāng)来(lái)说(shuō)，则(zé)带(dài)有(yǒu)一(yī)些(xiē)不(bù)确(què)定(dìng)性(xìng)。

首(shǒu)先(xiān)，云(yún)厂(chǎng)商(shāng)和(hé)数(shù)据(jù)中(zhōng)心(xīn)厂(chǎng)商(shāng)在(zài)过(guò)去(qù)两(liǎng)年(nián)“买(mǎi)爆(bào)”英(yīng)伟(wěi)达(dá)，很(hěn)大(dà)程(chéng)度(dù)上(shàng)是(shì)为(wèi)大(dà)模(mó)型(xíng)的(de)训(xun)练(liàn)、部(bù)署(shǔ)和(hé)运(yùn)行(xíng)提(tí)供(gōng)基(jī)础(chǔ)设(shè)施(shī)，可(kě)一(yī)旦(dàn)MoE、小(xiǎo)模(mó)型(xíng)等(děng)更(gèng)具(jù)成(chéng)本(běn)效(xiào)益(yì)的模型流行开来，头部买家能否持续现有的GPU采购量，要打一个问号。

其次，大模型训练使用的GPU向来由英伟达独占鳌头，但若算(suàn)力(lì)投(tóu)入(rù)不(bù)再(zài)高(gāo)企(qǐ)，其(qí)他(tā)厂(chǎng)商(shāng)也(yě)有(yǒu)了(le)分(fēn)一(yī)杯(bēi)羹(gēng)的(de)机(jī)会(huì)。目(mù)前(qián)，龙(lóng)芯(xīn)中(zhōng)科(kē)、昆(kūn)仑(lún)芯(xīn)、燧(suì)原(yuán)科(kē)技(jì)、华(huá)为(wèi)昇(shēng)腾(téng)、海(hǎi)光(guāng)信(xìn)息(xi)、天(tiān)数(shù)智芯、奕(yì)斯(sī)伟(wěi)等(děng)多(duō)家(jiā)国(guó)产(chǎn)芯(xīn)片(piàn)企(qǐ)业(yè)宣(xuān)布(bù)与(yǔ)DeepSeek适(shì)配(pèi)。

再(zài)次(cì)，降(jiàng)低(dī)训(xun)练(liàn)开(kāi)销(xiāo)的(de)可(kě)能(néng)性(xìng)，也(yě)让(ràng)广(guǎng)大(dà)GPU买(mǎi)家(jiā)开(kāi)始(shǐ)将(jiāng)目(mù)光(guāng)转(zhuǎn)向(xiàng)其(qí)他(tā)架(jià)构(gòu)——尤其(qí)是(shì)自(zì)家(jiā)研(yán)发(fā)的(de)ASIC芯(xīn)片(piàn)，以(yǐ)增(zēng)加(jiā)硬(yìng)件(jiàn)收(shōu)入(rù)、增(zēng)强(qiáng)云(yún)服(fú)务(wu)的(de)整(zhěng)体(tǐ)性(xìng)并(bìng)提(tí)升(shēng)客(kè)户(hù)粘(zhān)性(xìng)。

以全球最大的云服务厂商(shāng)亚(yà)马(mǎ)逊(xùn)AWS为(wèi)例(lì)，2月(yuè)12日(rì)，亚(yà)马(mǎ)逊(xùn)AWS宣(xuān)布(bù)已(yǐ)于(yú)1月(yuè)上(shàng)线(xiàn)DeepSeek系(xì)列(liè)大(dà)模(mó)型(xíng)，用(yòng)户(hù)可(kě)以(yǐ)使(shǐ)用(yòng)亚(yà)马(mǎ)逊(xùn)云(yún)科(kē)技(jì)自(zì)研(yán)芯片Trainium和Inferentia通(tōng)过(guò)Amazon EC2或(huò)者(zhě)Amazon SageMaker部(bù)署(shǔ)DeepSeek-R1蒸(zhēng)馏(liú)模(mó)型(xíng)，规(guī)模(mó)从(cóng)15亿(yì)参(cān)数(shù)的(de)Qwen蒸(zhēng)馏(liú)模(mó)型(xíng)到(dào)706亿(yì)参(cān)数(shù)的(de)Llama蒸(zhēng)馏(liú)模(mó)型(xíng)不(bù)等(děng)。亚(yà)马(mǎ)逊(xùn)自(zì)研(yán)芯(xīn)片(piàn)的(de)一(yī)个(gè)重(zhòng)要(yào)目(mù)标(biāo)就(jiù)是(shì)降(jiàng)低(dī)训(xun)练(liàn)成本，与基于GPU的同类实例相比，Trainium芯片支持的Amazon EC2Trn1实例，可节省50%的训练成本。

OpenAI也在近期再传自研芯片的消息。据悉，OpenAI将在年内完成首款自研芯片设计，计划采用台积电3nm工艺制造。

此外，LPU（语言处理器）受到市场关注，采用RISC-V指令集的AI SoC也实现了与DeepSeek的适配。

当然，也有观点认为，DeepSeek对算力产业是长期利好。

比如，在英伟达市值蒸发5920亿美元的那个交易日，微软CEO萨提亚·纳德拉（Satya Nadella）在社交媒体平台表示：“杰文斯悖论再次应验！随着人工智能变得更高效、更易用，我们会看到其使用量急剧飙升，它会变成一种我们怎么都用不够的大众资源。”

杰文斯悖论是一种经济学理论，主张当技术进步提高了资源使用的效率，即减少资源使用的数量，但成本降低导致需求增加，令资源消耗的速度不减反增。

这套逻辑，当然也适用于算力。既然DeepSeek等MoE模型降低了单个大模型训练所需的算力开销，使大模型更具性价比，就会加速大模型(xíng)的(de)落(luò)地(de)开(kāi)花(huā)。如(rú)果(guǒ)各(gè)行(xíng)各(gè)业(yè)部(bù)署(shǔ)大(dà)模(mó)型(xíng)的(de)积(jī)极(jí)性(xìng)提(tí)升(shēng)，从(cóng)长(zhǎng)远(yuǎn)来(lái)看(kàn)，对(duì)算(suàn)力(lì)的(de)整(zhěng)体(tǐ)需(xū)求(qiú)就(jiù)有(yǒu)较(jiào)为(wèi)充足的上升空间，自然利好GPU等算力芯片的发展。

只是这杯羹，不一定再由英伟达的尖端GPU独占，算力需求带来的利润洪流，也未必再被CUDA这道大坝截留。

在DeepSeek-V3的技术报告中，DeepSeek团队向人工智能硬件供应商提出了芯片设计建议，包括提高张量核心中FP8通用矩阵乘法的累加精度、支持分块和块级量化等。对于芯片企业来说，除了持续提升芯片性能，能够与大模型开发团队进行紧密协作、将工程化做好(hǎo)做(zuò)精(jīng)，会(huì)更(gèng)有机会在“效率至上”的训练竞赛中站到前排。