数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

智谱GLM-5.1高速版API发布:400 tokens每秒,国产大模型实现旗舰能力与低延迟并存

2026-05-23来源:快讯编辑:瑞雪

智谱近日宣布推出一款面向企业客户的高速版API——“GLM-5.1-highspeed”,该模型输出速度高达400 tokens/s,成为全球大模型厂商API中速度最快的产品之一。这一突破不仅刷新了行业纪录,更在国产大模型领域首次实现了旗舰级能力与低延迟的完美结合,打破了“高速即轻量”的传统认知。

GLM-5.1高速版的成功离不开智谱GLM团队与TileRT团队的深度合作。双方从推理引擎、调度系统到基础设施层面进行了系统性优化:在推理引擎层,针对模型架构特点重写核心路径,显著提升单卡吞吐能力;调度系统通过动态批处理、请求合并和KV缓存调度优化,有效降低高并发场景下的尾延迟;基础设施则围绕集群部署、网络链路和负载均衡展开协同优化,确保400 tokens/s的输出速度成为稳定可靠的生产级能力。

传统大模型推理速度受限于调度框架的设计。主流框架以算子为基本调度单元,每个算子需经历完整的“启动-计算-同步”流程,导致在单token、小batch场景下,调度开销被急剧放大。TileRT团队通过彻底重构推理流程,在编译期将整个计算图静态编排为常驻GPU的持久化引擎内核,实现了单卡内计算、异步IO与通信的微任务级拆解。这种设计使得推理过程仅需启动一次引擎内核,中间结果通过寄存器、共享内存和L2缓存直接传递,大幅减少了全局内存访问和主机调度开销。

在多卡协同方面,TileRT将NVIDIA SM单元的Warp特化思想扩展至8卡NVL拓扑结构。不同GPU根据计算密度和数据依赖关系执行差异化任务,形成高效的分工协作模式。这种架构突破了传统同构计算的局限,在保持低延迟的同时,充分释放了多卡集群的并行计算潜力。

目前,GLM-5.1高速版已面向智谱MaaS平台的部分企业客户开放服务,特别适用于AI编程、实时交互、商业决策和实时语音等对响应速度要求严苛的场景。该模型的推出标志着国产大模型在工程化落地方面取得重要进展,为企业级应用提供了更高效的技术解决方案。

小米17 Max深度评测:告别副屏拥抱大电池,徕卡影像与实用主义完美融合
我们直接进行游戏测试,性能模式下,半小时原神须弥城跑图,小米17 Max平均帧率稳稳贴着60帧,几乎是一条直线。这结果我是不太意外的,小米17 Max本来机身空间就大,所以在游戏方面的性能释放足够到位,做…

2026-05-23

海盗船进军企业AI领域:CORSAIR PRO产品线发布,涵盖工作站与服务器
IT之家 5 月 22 日消息,传统上专注于消费者业务的硬件企业 CORSAIR(海盗船)美国加州当地时间 21 日宣布推出 CORSAIRPRO 产品线。这是一套专为部署和扩展现代 AI 工作负载的企业而…

2026-05-23

华为MatePad Pro Max图赏来袭:全球最轻薄大尺寸平板,实力与颜值并存
快科技5月22日消息,日前华为MatePad Pro Max正式亮相,这也是全球最轻薄大尺寸平板电脑。现在这款新品已经来到我们评测室,下面为大家带来图赏。 正面搭载一块13.2英寸的OLED柔性屏,拥有30…

2026-05-23

2026年6月高颜值手机大赏:荣耀600领衔,设计影像续航全在线
荣耀600系列凭借独特的美学设计、领先的影像系统和超长续航表现,成为2026年6月最值得关注的高颜值手机。其幸运星ID设计将科技与艺术完美融合,8000nits绿洲护眼屏和全焦段4K Live影像带来了全方…

2026-05-22