2025-03-05 18:12:57

达摩院首席科学家孟建熠：模型创新为算力架构带来新机会

AI时代架构创新不断涌现，而DeepSeek的出现为整个AI市场带来了全新活力。近日，达摩院首席科学家、知合计算CEO孟建熠在2025玄铁RISC-V生态大会上表示，DeepSeek在一定程度上改变了行(xíng)业对AI硬件架构的诉求，模型持续创新是所有算力架构的机会。对RISC-V发展而言，打造标杆产品是关键。

DeepSeek让大模型从云走向端

孟建熠表示，DeepSeek问世之后，业界中产生了三方面不同观点的争论：一是开源架构与闭源架构谁更好。DeepSeek证明了开源架构也有很好的表现。二是该用Dense模型还是MoE模型。前者是通用全能的模型，后者是更好的专家模型，二者各有所长。三是算力敏感与内存容量敏感之争。之前模型对算力的需求非(fēi)常大，现在是容量很大，算力下降了，所以内存容量成为一项关键指标。

“DeepSeek在一定程度上改变了大家对AI硬件架构的诉求。”孟建熠认为。

模型深度优化为算力架构带来了全新可能。具体而言，一是MoE模型，以更低激活比达成更低的计算成本，并使模型的单机部署成为可能。二是稀疏计算与模型压缩技术，识别并跳过模型中不重要的计算节点（如权重接近零的部分节点），同时结合模型压信技术减少参数量。三是混合精度计算与量化技术，浮点计算转化为低精度计算（如(rú)INT8、FP8、FP16），同(tóng)时(shí)保(bǎo)持(chí)模(mó)型(xíng)精(jīng)度(dù)。四(sì)是(shì)动态计算图优代技术，实时调(diào)整(zhěng)计(jì)算(suàn)结(jié)构减少冗余计算。五是内存优化与数据流重构技术，减少内存访问延迟以及數掘传输开销(xiāo)。六(liù)是(shì)分(fēn)布(bù)式(shì)计(jì)算(suàn)与(yǔ)负(fù)载(zài)均(jūn)衡(héng)技(jì)术(shù)，将(jiāng)大(dà)规(guī)模(mó)模(mó)型(xíng)推(tuī)理(lǐ)任(rèn)务(wu)拆(chāi)分(fēn)到(dào)多(duō)个(gè)计(jì)算(suàn)节(jié)点(diǎn)，并(bìng)通(tōng)过(guò)负(fù)载(zài)均(jūn)衡(héng)技(jì)术(shù)优(yōu)化(huà)任(rèn)务(wu)分配。

DeepSeek的出现，推动行业更加关注底层硬件能力的适配。“在很长一段时间里，大家都喜欢喜欢‘大炮打蚊子’，当然这样是效率很高。但是(shì)今(jīn)天(tiān)我(wǒ)们(men)有了一个新思路——可以用软硬件融合的视角来看待整个AI的发展。”孟建熠强调，算力、内存、互联之间原有的平衡发生了剧变，对于新的算力架构机会而言，大家再次进入同一起跑线。同时，开源大模型单机部署成为可能，进一步推动实际应用落地。

另一个趋势是大模型走向趋同，帮助算子收敛。值得关注的是，大模型的参数量和计算量巨大,但如今算子的个数在逐步收敛，主要以矩阵计算为中心，而且通过开源相互学习正在走向趋同。

从云端协同的层面，DeepSeek帮助大模型从云走(zǒu)向(xiàng)端(duān)，由(yóu)此(cǐ)也(yě)带(dài)来(lái)了(le)几(jǐ)个(gè)变(biàn)化(huà)：一(yī)是(shì)从(cóng)算(suàn)力(lì)瓶(píng)颈(jǐng)变(biàn)为(wèi)存(cún)储(chǔ)的(de)带(dài)宽(kuān)和(hé)容(róng)量(liàng)瓶(píng)颈(jǐng)，容(róng)量(liàng)瓶(píng)颈(jǐng)成(chéng)为(wèi)全量(liàng)大(dà)模(mó)型(xíng)最(zuì)关键的(de)因(yīn)素(sù)，比(bǐ)如(rú)671B大(dà)模(mó)型(xíng)。二(èr)是(shì)降(jiàng)低(dī)计(jì)算(suàn)资(zī)源(yuán)需(xū)求(qiú)，让(ràng)几(jǐ)T、几(jǐ)十(shí)T和(hé)几(jǐ)百(bǎi)T的(de)算力成为可能。三是实现单机部署的可能，能够让开源模型被更多私有数据优化，形成私有解决方案。四是支持边缘设备，使得高性能AI应用能够在边缘设备上顺利运行。“大模型在云端的话，实施成本比较高，只有有限的企业可能在部分领域去应用，而(ér)一(yī)旦(dàn)到(dào)了(le)端(duān)侧(cè)，就有大量的应用都会发展起来。”孟建熠表示。

模型创新是算力架构的机会

当前算力基础是以GPGPU(CUDA)为代表的传统闭源硬件与生态，而DeepSeek、Llama、Grok等开源大模型不断涌现，给算力架构带来了新机会。当然，这个机会对所有架构都有效，并非只对RISC-V而言。如今，这些开源模型(xíng)正(zhèng)在(zài)吸(xī)引(yǐn)更(gèng)多(duō)算(suàn)力(lì)架(jià)构(gòu)，包(bāo)括(kuò)X86、Arm这(zhè)样(yàng)的(de)传(chuán)统(tǒng)CPU架(jià)构(gòu)，DSA、ASIC这(zhè)样(yàng)的(de)自(zì)研(yán)架(jià)构(gòu)，以(yǐ)及(jí)以(yǐ)RISC-V为(wèi)代(dài)表的开源架构。“我们都在一个新的起点上，现在就看谁能够跑得快。”孟建熠说道。

作为三大主流指令集架构中最灵活、最开放的一个，RISC-V适应了AI时代的技术创新节奏。它在原生AI支持上，拥有开源与开放架构、更易实现的软硬件协同设计、更优的能效比，以及覆盖全球、不断成熟的生态。在孟建熠看来，“RISC-V架构+AI”是以AI原生成为架构创新的最终答案。随着开源RISG-V架构的快速发展，重新自研架构已意义不大，以RISC-V为基础构建处理芯片是未来的主流。

RISC-V在AI领域具备很高的包容性，可以支持做CPU/DSA，也支持做GPU、多核产品或者近内存计算。“大家可以在硬件上不断创新，而生态上统一在RISC-V。尽管目前有不同的实践方案，但最终一定会走向生态统一。”孟建熠表示。

RISC-V如何真正走出来，是备受业界关注的一个问题。发展至今，RISC-V生态已经慢慢建立起来，从IoT等功耗敏感型场景向服务器等高算力场景成长，从纯通用计算向AI计算与通用计算融合成长，其中已经有了一些标杆性产品。

打造标杆产品是RISC-V成长路径的关键环节。孟建熠指出，RISC-V发展中的一个新趋势是从“小标杆产品”向“大标杆产品”成长，引领软件生态加速配适，吸引产业资源加大倾斜。

实际上，国内外企业都在尝试打造RISC-V的标杆产品。比如，国内的达摩院2022年发布了基于玄铁C910 RISC-V核的4核产品，推动了包括安卓在内的软件厂商加(jiā)入(rù)RISC-V生(shēng)态(tài)。国(guó)际(jì)上(shàng)，Tenstorrent、Vantana和(hé)SiFive等(děng)企(qǐ)业(yè)也(yě)推(tuī)出(chū)一(yī)些(xiē)标(biāo)杆(gān)产(chǎn)品(pǐn)。其(qí)中(zhōng)，Tenstorrent最(zuì)新(xīn)的(de)RISC-V核(hé)“Ascalon”采用(yòng)了(le)CPU中(zhōng)少(shǎo)见(jiàn)的(de)8-Wide指(zhǐ)令(lìng)集解(jiě)码(mǎ)器(qì)设(shè)计(jì)。孟(mèng)建(jiàn)熠(yì)认为，下一代RISC-V标杆产品在服务器场景、AI PC场景、AI场景有着一些关键指标。要真正从产业中走出来，性价比很重要。

“标准建设是RISC-V下阶段发展的重中之重。”孟建熠表示，国内产业需要在标准建设中尽快形成合力。目前，国际上在指令架构上的贡献明显高于国内，国内力量的参与度还不够。国内已经建立多个组织，都在进行相关的指令集的制定工作，需要联合起来统一到一个平台工作。另外，技术路线上要考虑相对集中，以AI为目标先做一轮国内制定标准的尝试。此外，计算原语是相类似，所以CPU、GPGPU、TPU在扩展上要形成一定的梯度，不能把指令集做成很多套并行大而全的扩展，这样生态无法形成。