快手旗下的可灵AI最近上线了一个新功能——“多图参考”模式。这项技术能够识别多张图片里的不同主体,并结合用户提供的文字描述,智能生成一段融合这些元素的视频,成功解决了AI视频生成中的一致性问题。
用户现在可以在可灵1.6版本中尝试这个功能。操作起来很简单,先选择图生视频选项,上传1到4张参考图片,再用框选工具挑出图片里的目标对象(比如人物、动物、物品或场景),最后用文字描述这些对象的变化或交互,可灵AI就能根据所有信息生成视频。
你可以上传一张或多张相同主体的照片,像人物、动物、影视角色或物品之类的。系统会根据这些照片制作出风格一致的视频,让用户在做AI视频时保持画面中主体的一致性。比如上传一张猫咪、一件夹克和一副墨镜的照片,再输入提示“一只穿着夹克、戴着墨镜的人格化猫咪在舞台上转圈并向镜头摆pose”,最终生成的视频就会符合这个设定。
另外,借助参考图,用户还能指定场景、服饰和动作等细节,让角色在某个特定环境下完成特定表演,大幅提升了创作灵活性。例如上传一位卡通爷爷、一杯咖啡和咖啡厅的图片,输入提示“一位卡通风格的爷爷正在咖啡厅端起咖啡杯”,就能得到爷爷坐在咖啡厅喝咖啡的画面。
“多图参考”还能实现不同角色间的互动。只需上传几张人物、动物或影视角色的照片,配合文字说明它们之间的互动即可。例如上传小男孩和柯基犬的照片,输入提示“一个可爱的男孩正在摸一只柯基犬”,就能生成相关视频。
在此之前,可灵AI已在全球范围内发布了“人脸模型”功能,允许用户上传多段视频来创建并定制人脸模型,进而基于此生成更多视频内容。这是行业内首次推出这样的功能,旨在满足用户对同一人物出现在多个镜头中的需求。
如今,“多图参考”功能的加入,让可灵AI在视频生成方面迈出了重要一步,不仅增强了内容的一致性,还鼓励用户充分发挥想象力,灵活搭配各类图片素材,构建独一无二的创意场景,打开更多创新空间。