统一多模态创作工具可灵O1上线解锁无限创意可能

张骞月

2025-12-15 14:15:10

近日，全球首个整合视频与图像创作功能的多模态工具“可灵O1”正式推出。这款工具基于新的视频和图像模型，以自然语言为引导，结合视频、图片、主体等多方面描述，将所有生成和编辑工作整合到一个统一系统中，为用户打造全新的创作流程，实现从想法到成品的完整闭环。

作为首款多模态视频模型，可灵O1采用MVL技术，突破了传统单一任务模型的限制，将参考生成视频、文字生成视频、首尾帧生成、内容增删、修改变换、风格重绘、镜头扩展等多种功能集合在一起。用户无需切换不同工具，就能完成从创建到修改的全过程。

该模型具备深入理解语义的能力，用户提供的图片、视频、主体或文字都被视为指令。它能够全面解析一张照片、一段视频或一个角色的不同角度，准确生成各种细节。

可灵O1的多模态输入界面让复杂的剪辑变得简单。用户只需输入“移除路人”、“改变时间”或“更换服装”，模型就能理解画面逻辑，自动处理局部替换或整体风格调整，实现精准的像素级重构。同时，它还支持参考图、指令变化、内容增减、视角切换、背景修改等功能。

针对AI视频中常见的角色和场景不一致问题，可灵O1加强了对输入内容的理解。它可以像导演一样记住主角、道具和场景，无论镜头如何变化，主体特征始终保持稳定。此外，它还能处理多个主体的组合，或者将主体与参考图混合使用，确保每个角色或物品在不同镜头中保持一致。

该工具不再局限于单一任务，而是支持多种技能组合。例如，用户可以要求“添加新角色并修改背景”，或者“在生成图像时同步调整风格”。这种能力大大拓展了创作空间，使创意更容易实现。

可灵O1允许用户自由设定视频长度，支持3到10秒的灵活生成。无论是快速的视觉冲击还是较长的故事叙述，都由用户决定。未来，首尾帧功能也将支持这一时间段，进一步提升叙事效果。

同时发布的还有可灵图像O1模型，它覆盖从基础图像生成到高级编辑的全流程。用户可以通过文字生成图片，也可以上传最多10张参考图进行再创作。该模型有四个主要优势：保持主体特征不变、精确调整细节、准确控制画面风格、激发丰富创意，真正实现“想要什么就生成什么”。

可灵O1适用于多种视频制作场景，包括影视、自媒体、广告电商等。无论是构建全新故事，还是优化已有素材，它都能根据需求灵活使用参考和编辑功能。

在影视领域，通过可灵O1的图片参考和主体库功能，可以准确识别每个分镜的角色和服装，轻松生成连贯的镜头。对于后期制作和自媒体创作者，只需用简单的提示词，如“删除背景中的行人”、“让天空变蓝”，即可完成智能修复和重构。

针对广告制作成本高、周期长的问题，用户只需上传产品图、模特图和场景图，配合简单描述，就能快速生成多个吸引人的广告视频，减少实拍需求。对于模特拍摄麻烦、更换背景或服装需要重复拍摄的情况，可灵O1可以创建虚拟T台，上传模特和服装图后，输入指令即可生成高质量的展示视频。

可灵O1的强大功能源于其技术上的创新。新的视频模型打破了生成、编辑和理解之间的界限，构建了全新的生成平台，结合多模态理解和长上下文处理，实现了多任务的统一。

本文来源：图灵汇文章作者：张骞月

统一多模态创作工具可灵O1上线 解锁无限创意可能