统一多模态创作工具可灵O1上线 解锁无限创意可能

图灵汇官网

近日,全球首个整合视频与图像创作功能的多模态工具“可灵O1”正式推出。这款工具基于新的视频和图像模型,以自然语言为引导,结合视频、图片、主体等多方面描述,将所有生成和编辑工作整合到一个统一系统中,为用户打造全新的创作流程,实现从想法到成品的完整闭环。

作为首款多模态视频模型,可灵O1采用MVL技术,突破了传统单一任务模型的限制,将参考生成视频、文字生成视频、首尾帧生成、内容增删、修改变换、风格重绘、镜头扩展等多种功能集合在一起。用户无需切换不同工具,就能完成从创建到修改的全过程。

该模型具备深入理解语义的能力,用户提供的图片、视频、主体或文字都被视为指令。它能够全面解析一张照片、一段视频或一个角色的不同角度,准确生成各种细节。

可灵O1的多模态输入界面让复杂的剪辑变得简单。用户只需输入“移除路人”、“改变时间”或“更换服装”,模型就能理解画面逻辑,自动处理局部替换或整体风格调整,实现精准的像素级重构。同时,它还支持参考图、指令变化、内容增减、视角切换、背景修改等功能。

针对AI视频中常见的角色和场景不一致问题,可灵O1加强了对输入内容的理解。它可以像导演一样记住主角、道具和场景,无论镜头如何变化,主体特征始终保持稳定。此外,它还能处理多个主体的组合,或者将主体与参考图混合使用,确保每个角色或物品在不同镜头中保持一致。

该工具不再局限于单一任务,而是支持多种技能组合。例如,用户可以要求“添加新角色并修改背景”,或者“在生成图像时同步调整风格”。这种能力大大拓展了创作空间,使创意更容易实现。

可灵O1允许用户自由设定视频长度,支持3到10秒的灵活生成。无论是快速的视觉冲击还是较长的故事叙述,都由用户决定。未来,首尾帧功能也将支持这一时间段,进一步提升叙事效果。

同时发布的还有可灵图像O1模型,它覆盖从基础图像生成到高级编辑的全流程。用户可以通过文字生成图片,也可以上传最多10张参考图进行再创作。该模型有四个主要优势:保持主体特征不变、精确调整细节、准确控制画面风格、激发丰富创意,真正实现“想要什么就生成什么”。

可灵O1适用于多种视频制作场景,包括影视、自媒体、广告电商等。无论是构建全新故事,还是优化已有素材,它都能根据需求灵活使用参考和编辑功能。

在影视领域,通过可灵O1的图片参考和主体库功能,可以准确识别每个分镜的角色和服装,轻松生成连贯的镜头。对于后期制作和自媒体创作者,只需用简单的提示词,如“删除背景中的行人”、“让天空变蓝”,即可完成智能修复和重构。

针对广告制作成本高、周期长的问题,用户只需上传产品图、模特图和场景图,配合简单描述,就能快速生成多个吸引人的广告视频,减少实拍需求。对于模特拍摄麻烦、更换背景或服装需要重复拍摄的情况,可灵O1可以创建虚拟T台,上传模特和服装图后,输入指令即可生成高质量的展示视频。

可灵O1的强大功能源于其技术上的创新。新的视频模型打破了生成、编辑和理解之间的界限,构建了全新的生成平台,结合多模态理解和长上下文处理,实现了多任务的统一。

本文来源: 图灵汇 文章作者: 张骞月