kaiyun.com跟着AI进入智能体期间-开云(中国)Kaiyun官方网站登录入口

发布日期：2025-10-01 06:12 点击次数：53

克雷西 henry 发自凹非寺kaiyun.com

量子位 | 公众号 QbitAI

一百万Token的输出推理资本，只好一块钱了。

本年的东谈主工智能计较大会上，波浪信息发布了超膨大AI工作器元脑HC1000，把AI推理资本狠狠地打了下来。

与此同期，波浪信息还推出另一杀手锏——元脑SD200超节点，也将DeepSeek-R1的Token生成期间打到了毫秒量级。

波浪信息首席AI策略官刘军

跟着AI竞赛进入智能体产业化阶段，智商、速率和资本成为了决胜的中枢三要素。

波浪信息打出的这套组合拳，针对的即是其中波及到AI Infra的两项关节意见——速率与资本。

元脑SD200和元脑HC1000，将为多智能体协同与复杂任务推理的边界化落地，提供高速率、低资本的算力基础行径。

DeepSeek-R1推理进入10ms期间

率先来看元脑SD200超节点AI工作器。

它不错在单机内同期启动DeepSeek-R1、Kimi K2等四大国产开源模子，救济超万亿参数大模子推理以及多智能体及时相助，还救济同期启动64个AlphaFold3卵白质预测模子。

稀零是在速率上，元脑SD200率先将大模子端到端推理延伸戒指在了10ms以内。

实测中，元脑SD200在启动DeepSeek-R1时，TPOT（每Token输出期间）仅有8.9ms，高出了前SOTA（15ms）近一倍，还使DeepSeek-R1 671B的推感性能杀青了最高16.3倍的超线性膨大率。

而况元脑SD200并莫得因为速率而阵一火系统的富厚性与可靠性，而是辞别在系统硬件层、基础软件层和业务软件层等层面进行针对性设计和优化，保证整机启动高可靠设计，真确作念到了“快而不乱”。

为什么元脑SD200如斯强调“速率”？

因为速率依然成为智能体期间AI竞争的关节变量。

跟着AI进入智能体期间，交互模样发生了雄伟改换，夙昔大模子只需进行东谈主机对话，但当今还需要智能体与智能体之间的交流，对模子的生成速率愈加明锐。

稀零是在推行应用场景中，智能体与智能体之间的交互轮次更多，延伸会随这一过程握住蕴蓄，导致所有系统启动速率无法被用户经受，在竞争中将成为致命颓势。

除了用户的直不雅感受，形成生意场景对速率条款冷酷的原因还有好多。

比如在金融往来当中，对反适时效的条款极为冷酷，反讹诈算法需要在10毫秒的期间里识别风险往来，不然后果不胜想象。

因此，Token生成速率不仅影响用户体验，更径直关乎生意产出的富厚性与可靠性。

那么，制约Token生成速率素养的要素，又是什么呢？

问题主要出在了通讯圭臬。

当参数边界快速打破万亿级别，模子必须拆分到几十以致上百张卡上时，正本在单机里面的高速通讯变成了跨机的网络传输，通讯就成为了更严峻的挑战。

稀零是在处分推理过程中无数的一丝据包时，延伸问题变得极为杰出，而且每一次跨机通讯王人可能带来非常延伸，当多个万亿级模子需要及时相助时，传统架构依然统共无法搪塞。

针对这些问题，元脑SD200先是在架构层面进行了改良。

具体来说，元脑SD200接纳了翻新的多主机3D Mesh系统架构，由自研的Open Fabric Switch结识，将多个主机的GPU资源整合成一个合资的计较域，而况当中大概杀青跨主机域全局合资编址。

这一架构让显存合资地址空间扩增8倍，可杀青单机64路的Scale up纵向膨大，最大不错提供4TB显存和64TB内存，构建超大的KV缓存分级存储空间。

而况通过Smart Fabric Manager，元脑SD200杀青了超节点64卡全局最优路由的自主创建，保险AI芯片间通讯旅途最短，进一步裁汰基础通讯延伸。

除了架构，在互联左券方面，为了杀青极低的Latency通讯，元脑SD200接纳了极简的三层左券栈，无需网络/传输层，仅凭物理层、数据链路层和事务层三层即可杀青GPU径直访谒远端节点的显存或主存。

这种模式无需“发送-吸收”式的音问语义拷贝，将基础通讯的延伸打到了百纳秒级。

同期，为了杀青富厚可靠通讯，元脑SD200原生救济由硬件逻辑杀青的链路层重传，可将重传延伸责问至微秒级；通过接纳漫衍式、驻扎式流控机制，从根柢上幸免拥塞和丢包。

此外，元脑SD200还通过接纳通讯库优化、并行推理框架、PD分离策略及动态负载平衡等翻新时间，充分推崇超节点的性能上风。

最终DeepSeek-R1 671B推理，从16卡膨大到64卡，杀青了16.3倍超线性的膨大率。

百万Token推理只好一块钱

除了元脑SD200，波浪信息还带来了超膨大AI工作器元脑HC1000。

元脑HC1000不仅救济极大推理模糊量，还能让单卡资本责问60%、均派系统资本责问50%，将每百万Token输出资本责问至1元。

若是说速率是智能体应用的人命线，那么资本则决定了渡过活命关的应用能否杀青盈利。

在智能体期间，Token残害量正在暴增，以援救编程为例，每月残害的Token数比一年前增长了50倍。

若是从经济角度议论，企业每部署一个智能体，平均每个月残害的Token资本将达到5000好意思元。

而况跟着任务复杂度、使用频率等意见握住攀升，据波浪信息展望，畴昔5年智能体应用带来的Token残害将呈现出指数级增长。

Token数目只增不减，若是不把单个Token资本打下来，那么在高强度交互的智能体环境中，Token资本必定成为边界化部署的瓶颈。

那么，Token推理资本又为什么居高不下呢？

推理阶段算效（MFU）低是主要原因。

具体来说，在锻练时，模子的FLOPs的哄骗率可能达到50%，但在推理阶段，这个数值可能低出一个数目级。

进一步的原因是推理的每个阶段的运算特色均不相易，与算力不行杀青存效匹配。

元脑HC1000对准的起点正在于此——

既然每个阶段有不同的运算特色，那就将推理的计较过程拆解，对模子结构进行解耦。

元脑HC1000不仅将推理过程的Prefill和Decode阶段分离，还将Decode阶段进一步领会成了注眼力运算和FNN，从而提高资源哄骗后果。

解耦之后的另一个平允是，关于芯片的意见条款不再是“五边形战士”，不错针对性地作念进一步资本削减，精打细算资本的同期还能责问功耗。

在硬件层面，元脑HC1000翻新16卡计较模组设计、单卡“计较-显存-互连”平衡设计，大幅责问单卡资本和每卡系统摊派资本。同期，全对称的系统拓扑设计救济超大边界无损膨大。

据测算，元脑HC1000的推感性能比较传统RoCE素养1.75倍，单卡模子算力哄骗率最高素养5.7倍。

另外，元脑HC1000还接纳全对称DirectCom极速架构，大概以超低延伸直达通讯，保险计较、通讯杀青1：1平衡分拨。

面向畴昔的AI翻新计较架构

面向智能体AI期间，波浪信息通过元脑SD200与元脑HC1000两大杀手锏，破解了智能体边界化落地中的速率与资本两大关节困难。

一方面，在智能体生意化过程中，Agent应用频频降服“快杀慢”的规定——

面对海量采取，用户更倾向于采取输出速率更快、录用后果更高的器具；

另一方面，跟着应用边界扩大、交互频次素养，行业关切的重心也从单纯算力转向总体领有资本，尤其是径直影响生意可行性的单Token资本。

基于此，波浪信息面向畴昔智能体的生意化场景，在速率与资本上率先解围，把“百万Token波折文”从高资本的时间演示，滚动为可边界化运营的现实智商。

然则，AI算力的可握续发展依然靠近三大挑战——系统边界接近工程极限、电力基础行径压力雄伟，以及算力进入与产出挣扎衡。

在此背后，是GPGPU主导的通用计较架构的局限性正在沉稳泄露。

因此，有必要调度念念维，念念考新的旅途，从边界导向转为后果导向，再行筹谋和设计AI计较架构，发展AI专用计较系统。

波浪信息首席AI策略官刘军指出：

通用架构后果低，但安妥性强，易于产业化执行；专用架构后果高，但应用面窄，不利于普及执行。计较产业发展的历程，即是一个专用与通用对立合资、轮流发展的过程。

这意味着，以GPGPU等主导的通用AI计较架构正在靠近多重挑战，正在向细分化、专科化的应用阶段加快转型。

安妥这一趋势，波浪信息通过软硬件协同设计与深度优化，面向具体应用，探索AI下半场的算力新旅途。

现时，波浪信息依然交出了元脑SD200和元脑HC1000这么的答卷。

畴昔，其将进一步针对核默算法算子进行硬件化、电路化设计，杀青性能的数目级素养，从而灵验搪塞畴昔Token边界握续增长所带来的雄伟计较需求，为智能体期间的高效落地提供可握续、可膨大的基础行径保险。

— 完 —

量子位 QbitAI · 头条号签约

关切咱们kaiyun.com，第一期间获知前沿科技动态

kaiyun.com跟着AI进入智能体期间-开云(中国)Kaiyun官方网站登录入口

热点资讯

相关资讯

kaiyun.com跟着AI进入智能体期间-开云(中国)Kaiyun官方网站 登录入口

热点资讯

相关资讯

kaiyun.com跟着AI进入智能体期间-开云(中国)Kaiyun官方网站登录入口