全球首个大一统多模态视频模型可灵O1发布让P视频像P图一样简单

04:00

近日，全球首款整合视频与图像生成能力的工具“可灵O1”正式推出。这款工具基于新的视频和图像模型，以自然语言为基本框架，结合视频、图片、主体等多方面描述，将所有创作和编辑工作集中在一个统一系统中，帮助用户构建全新的多模态创作流程，实现从创意到成品的完整闭环。

图片：

这款工具采用多模态视觉语言技术，突破了传统视频生成模型的限制。它支持多种任务，包括参考生成视频、文字生成视频、首尾帧生成、内容增删、修改变换、风格重绘、镜头扩展等。用户可以在一个平台上完成整个创作过程，无需切换多个工具。

该模型能够理解各种输入内容，如图片、视频、主体或文字。它能综合分析一张照片、一段视频或一个角色的不同角度，准确生成细节。

图片：

用户可以通过简单的指令进行视频编辑，比如“移除路人”、“改变时间”或“更换服装”。模型可以自动处理局部或整体内容，实现精准的像素级调整。同时，它还支持图片参考、指令变化、视频参考、首尾帧、文字生成视频等功能。

在保持角色和场景一致性方面，该模型进行了优化。它可以记住主角、道具和背景，确保无论镜头如何变化，主体特征稳定不变。此外，它还能处理多个主体的组合，适应复杂场景，保证每个角色或道具的特征清晰明确。

图片：

用户可以要求模型同时添加新元素并修改背景，或者在生成图像时同步调整风格。这种多功能融合的能力，让创作更加自由，激发更多创意可能。

图片：

用户可以根据需要设定视频长度，范围是3到10秒。这样可以让每个故事有更自然的节奏。未来还将支持首尾帧的灵活设置，进一步提升叙事效果。

图片：

另外，可灵图像O1模型也一并发布。它支持从基础图像生成到精细调整的全过程。用户可以通过文字生成图片，也可以上传最多10张参考图进行再创作。该模型具备四个主要特点：保持主体特征、精准调整细节、控制画面风格、展现丰富想象力，真正实现“所想即所得”。

图片：

可灵O1适用于多种视频创作场景，包括影视、自媒体和广告电商等。无论是从零开始制作视频，还是对已有素材进行修改，都可以根据需求灵活使用其功能。

在影视领域，该工具能精准识别角色和服化道，方便生成连贯的镜头。对于后期剪辑和自媒体创作者来说，只需简单输入指令，就能自动完成复杂的编辑任务。

图片：

针对广告制作成本高的问题，用户只需提供商品图、模特图和场景图，配合简单描述，就能快速生成多个高质量广告视频。这大大减少了实拍的需求。同时，该工具还能帮助用户创建虚拟T台，批量生成Lookbook视频。

可灵O1的强大功能得益于技术上的创新。新的视频模型打破了生成、编辑和理解之间的界限，构建了一个统一的系统。通过多模态Transformer和长上下文处理，实现了多种任务的深度融合。

登录