可灵2.1首尾帧功能上线 破解AI视频转场难题

图灵汇官网

8月22日,可灵AI发布了基于2.1模型的全新首尾帧功能。该功能通过升级端到端多模态语义推理技术,让视频生成效果有了明显提升。数据显示,和1.6版本比,效果提升235%,在视频转场、画面呈现、运镜处理以及营销素材制作等方面表现突出。

转场更自然,多场景衔接流畅
可灵2.1模型首尾帧功能的一大改进,是解决了AI视频生成里常见的转场问题,比如场景衔接生硬、有停顿等情况。

测试视频里,一名年轻亚洲女性从摆满书和佛像的房间转身,镜头慢慢推进到金色装饰更多的空间。这个过程中,她的发型从长发自然垂落变成侧梳,衣服从白色长袖衬衫换成无袖上衣,光线也从暖光散射转为聚焦,整个切换很自然,逻辑连贯。这个案例用多个首尾帧连接完成连续转场,能看出模型对艺术风格切换和角色动态衔接的把控能力。

画面更有张力,表现力增强
可灵2.1首尾帧功能在视觉呈现上有进步,能做出更有张力的画面效果。

实际测试的视频中,人物轮廓在深蓝色背景里逐渐变成火焰的样子,火山岩浆流动、星空下火焰升起等细节都很清楚,节奏和危险紧张的氛围也搭,显示出模型对复杂视觉元素的控制能力。

支持专业运镜,观看更沉浸
可灵2.1首尾帧功能能实现专业级的复杂运镜,通过首尾帧连续连接,让镜头轨迹和场景逻辑匹配。

比如在模型连续生成的视频里,镜头先快速向左下摇动,突出趴在地上爬行的破旧机器人,接着又快速向左摇,拍到逃窜的机器人和爆炸场景,整个镜头调度流畅,让观看更有沉浸感。

帮品牌做素材,降低制作成本
升级后的首尾帧功能能帮品牌快速做出符合调性的创意展示视频,适合市场营销等场景,有助于减少素材制作成本。

在一个饮品广告案例里,易拉罐从树莓中快速飞出,周围的树莓像爆炸一样散开,果汁向四周飞溅,整个过程很自然,给观众带来沉浸式体验。

专业评估人员对比了可灵2.1、可灵1.6、Seedance1.0 mini、Midjourney等模型的首尾帧功能效果。结果显示,可灵2.1在整体效果和多个细分维度上表现较好:和Seedance1.0 mini对比的整体GSB得分是2.09,和Midjourney对比是2.30,和可灵1.6对比达到3.35;在和Midjourney、Seedance1.0 mini的两两偏好对比中,可灵2.1的胜率分别为62%、57%。

这样的表现得益于可灵2.1在端到端优化的多模态语义推理能力上的提升。模型能深度结合用户提示词和首尾帧图片中的视觉语义及动作意图,融合多模态数据,捕捉并推理画面元素在时空维度上的演变逻辑,在艺术风格切换、角色衔接、复杂运镜与场景迁移等方面,生成自然流畅的动态画面。

可灵2.1还引入了自适应扩散引导与方向重定向机制,在扩散生成的每一步对条件分布进行动态引导和纠正,修正偏离语义或视觉逻辑的动态路径,确保动作衔接平滑、运动节奏稳定可控。模型在生成过程中保持人物/物体身份一致性、色彩风格与画面基调连贯,提升了视频的专业质感。面对高动态场景下的局部失真、细节破碎、缩放变形及首尾帧视觉跳变等问题,该机制能有效抑制和纠正错误,保障生成内容的稳定性。

作为AI创意生产力平台,可灵AI已完成30次迭代,服务用户超过4500万,累计生成视频超2亿条、图片超4亿张,覆盖广告、影视、游戏等多个行业。此次2.1模型首尾帧功能的推出,提升了视频生成的一致性和稳定性,适用于广告营销、影视、短剧、动画等创意制作场景,进一步巩固了其在AI视频生成领域的地位。

本文来源: 图灵汇 文章作者: 投影时代