数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

字节开源视频新框架Bernini:多模态规划+Diffusion渲染,AI视频编辑精准可控再升级

2026-06-02来源:天脉网编辑:瑞雪

在视频生成领域,创作者们长期面临一个棘手难题:模型难以精准理解人类意图。当用户要求将晴天画面转为雪景时,系统可能仅在画面上机械添加雪花;尝试将动画嵌入商场LED屏时,又会出现边界扭曲、透视错乱等问题。这种"听懂话却做不对事"的困境,正在被字节跳动商业化技术团队推出的开源框架Bernini打破。

这个采用"先理解后生成"策略的创新框架,通过多模态大模型与扩散模型的分工协作,实现了视频生成与编辑的精准控制。其核心架构包含两大模块:基于多模态大模型的规划器(MLLM-based planner)负责解析文本指令、分析源素材并规划目标画面,扩散变换器渲染器(DiT-based renderer)则将语义规划转化为高质量视频。这种分工模式使系统能同时处理参考生成、视频编辑等复杂任务,在保持帧间一致性的同时实现风格迁移、主体替换等精细操作。

在天气变换测试中,系统展现了对环境要素的深度理解能力。当用户指令将城市航拍从晴天转为雨天时,模型不仅调整了天空色调,还同步修改了路面反光、建筑湿润度等细节,使天气变化自然融入原始场景。更令人印象深刻的是三维空间处理能力——在视角编辑任务中,系统能准确把握场景深度关系,确保镜头移动时建筑轮廓符合透视原理,避免出现结构扭曲。

针对视频编辑中的动作连贯性难题,研发团队设计了专门的解决方案。在棕熊视频测试中,系统在保持环境光照和镜头关系稳定的前提下,成功实现了从静卧到起舞的动作转换。这种突破得益于渲染器对源视频VAE特征的巧妙运用,既能保留非编辑区域细节,又能确保主体动作自然嵌入原有画面。测试数据显示,在复杂动作编辑场景中,系统能将主体变形率降低至3%以下,动作断裂现象减少92%。

参考素材处理能力是该系统的另一大亮点。在材质替换测试中,系统能根据布料、金属等参考图,精准修改盘子表面纹理,并确保材质特征随物体移动保持稳定。风格迁移功能支持跨维度视觉转换,可将水墨、赛博朋克等不同风格特征完整迁移至动态视频,同时保留原始主体运动轨迹。特别值得关注的是图像植入功能,当测试人员将油画图片嵌入街头招牌时,系统自动处理了光照反射、边缘融合等细节,使植入画面与实拍场景浑然一体。

技术实现层面,研发团队创新性地引入Segment-Aware 3D Rotary Positional Embedding(SA-3D RoPE)机制。该技术通过为不同视觉片段添加唯一标识符,有效解决了多参考素材混合处理时的时空坐标混淆问题。在自建的Arena评测体系中,Bernini框架在视频一致性、语义理解准确度等核心指标上,已达到国际主流闭源模型水平,部分场景表现甚至更优。

目前,Bernini-R版本已开源,完整包含MLLM Planner的升级版本正在进行代码整理,预计近期开放下载。这个允许创作者使用自有素材进行视频生成的系统,正在重新定义AI辅助创作的边界——从被动响应指令到主动理解创作意图,从生成单帧美图到打造连贯视觉叙事,技术进步正在让视频创作摆脱"开盲盒"式的随机性,向着精准可控的方向稳步迈进。

技术突围与产能扩张双驱动,山东创鲁竞逐固态电池新赛道有何底气?
2025年,公司一期项目落地济南高新区储能装备产业园,总投资2.5亿元,采用自主研发技术和国内、外先进装备,建设年产6000吨的高比能锂离子电池正极材料生产线、年产150吨固态电解质材料生产线以及全固态电池中…

2026-06-02

思特威发布2亿像素手机CMOS传感器SCC62HS,多项技术加持助力超高清影像普及
在暗光环境下,SCC62HS 可开启 AllPix ADAF® 模式,依托 100%全像素对焦实现夜间疾速拍摄;在常规光线环境中,SCC62HS 则可切换至 Sparse PDAF® 模式,通过 6% 部分…

2026-06-02

iPhone 18 Pro电池容量揭晓:国行美版有差异,支持eSIM仍保留实体卡槽
【太平洋科技】近日,博主“数码闲聊站”曝光iPhone 18 Pro电池信息,该机国行与美版版本电池容量存在明显区别。 据悉,iPhone18 Pro国行版将支持eSIM功能,但仍保留实体卡槽以适配国内…

2026-06-02

实验室制氢为何“偏爱”稀硫酸?浓硫酸硝酸为何“失宠”?
浓硫酸中高浓度的硫酸分子会表现出强烈的氧化特性,其中的硫元素(+6价)会被还原为+4价,生成二氧化硫气体,同时产生水和金属硫酸盐。 硝酸(无论浓稀)也具有强氧化性,与金属反应时是氮元素被还原,同样不会生成氢气…

2026-06-02