8月22日,可灵AI发布了基于2.1模型的全新首尾帧功能。这个功能优化了端到端的多模态语义推理能力,让视频生成效果比之前的1.6版本提升了235%。在视频转场、视觉冲击力、复杂镜头运用和创意营销等方面,表现得尤其好。
解决转场问题 多场景流畅衔接
2.1模型的首尾帧功能解决了AI视频生成中常见的转场问题,比如场景切换生硬、有“刹车感”。测试视频里,一个年轻亚洲女性从堆满书和佛像的房间转身,镜头慢慢推到金色装饰更多的地方。这个过程中,她的发型从长发自然垂落到侧梳,衣服从白色长袖衬衫变成无袖上衣,光线从暖光散射到聚焦,都衔接得很自然,场景切换的逻辑也清楚。多个首尾帧连在一起还能实现连续的流畅转场,这说明模型能准确处理艺术风格的变化和角色动作的衔接。
增强视觉冲击 制作精彩特效
2.1版本的首尾帧功能还能产生强烈的视觉冲击,帮助制作精彩的视觉特效。测试视频里有个很有张力的人物变身画面:人物轮廓在深蓝色背景中慢慢变成纯火焰的样子,火山岩浆流动、星空下的火焰升起这些细节都看得很清楚。画面的节奏和紧张危险的氛围很搭,显示出模型对复杂视觉元素的控制能力。
专业镜头运用 提升沉浸体验
这个功能还支持专业的复杂镜头运用,通过连续的首尾帧衔接,让镜头移动轨迹和场景逻辑配合得很好。比如有两个连续生成的视频,镜头先快速向左下方摇动,突出趴在地上爬的旧机器人,接着又快速向左摇,拍到机器人逃跑和爆炸的场景。整个镜头移动过程很流畅,没有卡顿。
创意营销素材 降低制作成本
升级后的首尾帧功能能快速做出符合品牌风格的创意视频,适合市场营销等领域,还能降低素材制作成本。比如一个饮品广告案例里,易拉罐从树莓中快速飞出,周围的树莓像爆炸一样散开,果汁向四周飞溅,整个过程很自然,让观众有身临其境的感觉。
对比其他模型 优势明显
专业人员对可灵2.1、可灵1.6、Seedance1.0 mini和Midjourney的首尾帧功能做了效果测试。结果显示,可灵2.1在整体效果和多个细分方面都表现更好。和Seedance1.0 mini比,整体GSB得分是2.09;和Midjourney比,得分是2.30;和可灵1.6比,得分是3.35。在两两对比中,大家更喜欢可灵2.1的比例分别是62%(对Midjourney)和57%(对Seedance1.0 mini)。
注:GSB 指标用于衡量群体意见的一致性和正负倾向,GSB 值越大,说明模型优势越大
可灵2.1能有这样的表现,是因为它进一步提升了端到端优化的多模态语义推理能力。模型能深入结合用户的提示词和首尾帧图片里的视觉语义、动作意图,把多模态数据融合起来,准确推理画面元素在时间和空间上的变化逻辑。不管是不同艺术风格的切换、角色的自然衔接,还是复杂镜头和场景的转换,都能在语义的引导下生成自然流畅又有想象力的动态画面。
同时,可灵2.1加入了自适应扩散引导和方向重定向机制,让视频生成更稳定,质感更专业。这个机制在扩散生成的每一步都会动态引导和调整条件分布,改正那些偏离语义或视觉逻辑的动态路径,保证动作衔接顺畅、运动节奏稳定可控。模型还能保持人物或物体的身份一致,色彩风格和画面基调连贯,让视频看起来更专业。就算是高动态的场景,比如局部画面失真、细节破碎、缩放变形或者首尾帧视觉跳变,这个机制也能有效抑制和纠正错误,保证生成内容的稳定和可信。
作为全球有名的AI创意工具平台,可灵AI已经更新了30次,服务超过4500万用户,生成了2亿多条视频和4亿多张图片,用在广告、影视、游戏等多个行业。这次2.1模型首尾帧功能的推出,进一步提升了视频生成的一致性和稳定性,能用到广告营销、影视制作、短剧和动画等创意场景,让可灵AI在AI视频生成领域的领先地位更稳固了。