数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

智谱GLM-5V-Turbo发布:视觉编程新突破,一眼识图生成代码

2026-04-03来源:快讯编辑:瑞雪

在开发领域,视觉信息占据着主导地位,超过80%的需求以视觉形式呈现。然而,许多国内代码大模型长期以来只能依赖文本描述来推测页面布局,难以直接处理视觉信息。近日,智谱推出的GLM-5V-Turbo模型打破了这一局限,为视觉编程带来了新的突破。

GLM-5V-Turbo是一款专为视觉编程设计的多模态模型,能够原生融合视觉与文本能力。它不再依赖文本转译来“猜测”世界,而是直接理解设计图、解析复杂界面并生成对应代码,实现了从视觉感知到代码实现的完整开发链路。这一创新在海外社区引起了广泛关注,主贴阅读量迅速突破百万。

该模型在推理速度和核心能力上均表现出色。在前端看重的Design2code评测中,GLM-5V-Turbo以92.6的高分超越了K2.5的91.3分,展现了其在视觉UI转化为代码方面的精准度。在多模态工具调用方面,它在BrowseComp-VL评测中取得了48.7的成绩,领先于K2.5的42.9分,具备了“看图找工具办事”的实用能力。在Agent复杂任务评测中,其Pass³分数接近行业顶尖水平,显示出强大的综合规划与执行力。

GLM-5V-Turbo的能力不仅限于单一图像场景,还延伸至图文混合理解与生成任务。例如,在处理斯坦福大学《2025年人工智能指数报告》时,该模型能够提炼核心结论,并将其转化为精美的多页HTML演示文档,同时生成结构化大纲JSON和Markdown格式的摘要。这一过程展示了模型在“阅读—理解—抽象—表达—生成”多步流程中的卓越表现。

在更复杂的测试中,GLM-5V-Turbo被要求基于一张设计图复刻一个完整的网页。模型不仅实现了光标周围清晰、其他位置模糊的视觉效果,还使网页元素可点击,并将特定文字改为打字机特效展示。网页上的便利贴点击后会展开记事本,不同窗口可展示图片和视频素材,初步效果令人惊艳。

GLM-5V-Turbo的技术优势源于其独特的模型架构和训练方法。与大多数多模态模型“先语言后视觉”的工程化方法不同,该模型从预训练阶段就将文本和视觉信号深度融合。自研的CogViT视觉编码器在通用物体识别、细粒度细节理解等方面显著提升,配套的MTP结构则保证了推理效率。模型在强化学习阶段同步优化超过30种任务,覆盖STEM推理、视觉定位、视频理解等领域,实现了能力的均衡提升。

为解决Agent领域高质量多模态交互数据稀缺的问题,智谱构建了分层数据体系,利用合成环境自动生成大规模可控数据,并通过过程奖励模型(PRM)数据抑制幻觉生成。同时,模型工具链扩展至多模态搜索、区域框选标注等视觉交互类工具,将编程与任务执行的链路升级为“视觉-行动混合闭环”。

目前,GLM-5V-Turbo已开放API,Coding Plan用户可申请抢先试用。开发者可通过BigModel开放平台、AutoClaw(澳龙)和Z.ai等渠道访问该模型。随着API的开放和Agent生态的打通,智谱为开发者提供了“视觉感知+动作执行”的基础设施,开启了AI应用开发的新篇章。

苹果Siri迎15年来重大升级:iOS 27将支持多步指令,谷歌Gemini助力蜕变
全新 Siri 即将支持多步复合指令处理,用户只需说出一段话,就能让 Siri同时完成查天气、建立日历日程以及发送短信等多项任务。彭博社指出这次升级将彻底打破单次指令的限制,苹果希望借此将 Siri 从简单…

2026-04-03

iPhone 18 Pro模具曝光:灵动岛瘦身 性能影像续航全升级,或成最强一代
这一代Pro系列要直接跳过3nm,首发搭载台积电2nm工艺的A20 Pro芯片,性能预计提升15%到20%,关键是功耗能猛降30%。 有消息预测,这可能是史上最贵的一代iPhone,顶配版甚至有望冲击2万元…

2026-04-03

火山引擎发力AI领域:Seedance 2.0 API公测,豆包大模型Token使用量飙升
谭待认为,企业 Agent 未来将沿双路径并行发展:一是敏态 Agent,以ArkClaw等数字助理产品为代表,重在探索和提升个人生产力,是企业的创新试验场;二是稳态 Agent, 企业可实现AI最佳实…

2026-04-03

海韵FOCUS系列将推SAKURA樱花版电源,GX-1000或成基础型号引期待
IT之家 4 月 2 日消息,电源制造商海韵 Seasonic 此前曾在 VERTEX 系列中推出过一款 SAKURA 樱花版电源,在标准的GX-1000 白色型号上引入大量樱花主题装饰,粉红的点缀令其具有…

2026-04-03