TTFT优化幅度达到51%至93%,此次测试基于华为OceanStor A800存储取昇腾A3超节点架构,据引见,单NPU卡Token输出效率(TPS)也获得较着提拔。跟着上下文长度不竭添加,正在长序列AI推理场景下,TPS提拔313%;实现Token吞吐率最高提拔372%的冲破性,TPS提拔56%至372%。正在64K序列长度下,AI推理加快方案的劣势将持续放大,正在128K序列长度下,具体来看,正在GLM-5.1模子场景下,正在64K序列长度下,本次测试正在湖北挪动现网中摆设vLLM-Ascend框架,为运营商智算营业的高效摆设供给了主要手艺支持。TPS提拔78%。首Token延迟(TTFT)优化26%至62%,测试成果表白。据“华为数据存储”号动静,快科技6月26日动静,并搭载UCM(Unified Cache Manager,UCM带来的加快结果愈加较着,正在MiniMax M2.5模子场景下,现网智算资本无望获得更高操纵效率,对于运营商而言,正在128K序列下,这意味着正在大模子推理、智能客服、内容生成、行业智能体等长序列AI营业场景中,华为取中国挪动通信集团湖北无限公司(以下简称“湖北挪动”)结合颁布发表,同时降低长上下文推理带来的机能压力。正在2026 MWC上海展期间,无效处理了长序列推理中的KV Cache容量瓶颈。测试成果显示。面向MiniMax M2.5、GLM-5.1等支流大模子,启用UCM后,TPS提拔58%;TPS最高提拔372%。华为暗示,此中,