近日,全球首款整合视频与图像生成能力的工具“可灵O1”正式推出。这款工具基于新的视频和图像模型,以自然语言为基本框架,结合视频、图片、主体等多方面描述,将所有创作和编辑工作集中在一个统一系统中,帮助用户构建全新的多模态创作流程,实现从创意到成品的完整闭环。
图片:

这款工具采用多模态视觉语言技术,突破了传统视频生成模型的限制。它支持多种任务,包括参考生成视频、文字生成视频、首尾帧生成、内容增删、修改变换、风格重绘、镜头扩展等。用户可以在一个平台上完成整个创作过程,无需切换多个工具。
该模型能够理解各种输入内容,如图片、视频、主体或文字。它能综合分析一张照片、一段视频或一个角色的不同角度,准确生成细节。
图片:

用户可以通过简单的指令进行视频编辑,比如“移除路人”、“改变时间”或“更换服装”。模型可以自动处理局部或整体内容,实现精准的像素级调整。同时,它还支持图片参考、指令变化、视频参考、首尾帧、文字生成视频等功能。
在保持角色和场景一致性方面,该模型进行了优化。它可以记住主角、道具和背景,确保无论镜头如何变化,主体特征稳定不变。此外,它还能处理多个主体的组合,适应复杂场景,保证每个角色或道具的特征清晰明确。
图片:

用户可以要求模型同时添加新元素并修改背景,或者在生成图像时同步调整风格。这种多功能融合的能力,让创作更加自由,激发更多创意可能。
图片:

用户可以根据需要设定视频长度,范围是3到10秒。这样可以让每个故事有更自然的节奏。未来还将支持首尾帧的灵活设置,进一步提升叙事效果。
图片:

另外,可灵图像O1模型也一并发布。它支持从基础图像生成到精细调整的全过程。用户可以通过文字生成图片,也可以上传最多10张参考图进行再创作。该模型具备四个主要特点:保持主体特征、精准调整细节、控制画面风格、展现丰富想象力,真正实现“所想即所得”。
图片:

可灵O1适用于多种视频创作场景,包括影视、自媒体和广告电商等。无论是从零开始制作视频,还是对已有素材进行修改,都可以根据需求灵活使用其功能。
在影视领域,该工具能精准识别角色和服化道,方便生成连贯的镜头。对于后期剪辑和自媒体创作者来说,只需简单输入指令,就能自动完成复杂的编辑任务。
图片:

针对广告制作成本高的问题,用户只需提供商品图、模特图和场景图,配合简单描述,就能快速生成多个高质量广告视频。这大大减少了实拍的需求。同时,该工具还能帮助用户创建虚拟T台,批量生成Lookbook视频。
可灵O1的强大功能得益于技术上的创新。新的视频模型打破了生成、编辑和理解之间的界限,构建了一个统一的系统。通过多模态Transformer和长上下文处理,实现了多种任务的深度融合。
