Meta公司和斯坦福大学联手开发了一组全新的AI模型,名为Apollo,目标是提升机器识别和理解视频内容的能力。
尽管人工智能在图像和文本分析上的进步显著,但让机器理解视频仍然充满挑战。视频包含大量动态信息,这对AI来说更难处理,不仅需要更多的计算资源,还面临构建高效视频解析系统的诸多难题。
在视频处理领域,研究人员发现固定的帧率采样能带来最佳效果。因此,Apollo模型设计了两个主要模块:一个专注于单独的视频帧,另一个用来跟踪对象和场景随时间的变化。另外,在视频片段间加入时间戳,可以帮助模型更好地关联视觉信息与文字描述,提升其时间感知能力。
在模型训练过程中,研究团队意识到训练策略的重要性超过单纯扩大模型规模。Apollo采用分阶段训练的方法,按顺序逐步激活模型的不同部分,这种方法比一次性训练所有模块的效果更好。
此外,Meta公司还在持续优化数据集的构成。他们发现,将约10%至14%的数据集中在文本信息上,其余部分更多聚焦于视频内容,这种比例分配能让语言理解和视频处理能力达到更好的平衡。
测试显示,无论规模大小,Apollo模型都有出色表现。小版本Apollo-3B在相同规模的模型中胜过Qwen2-VL等对手,而大版本Apollo-7B的表现甚至超过了参数更大的同类模型。目前,Meta已开放Apollo的代码和模型权重,并在Hugging Face平台上提供了演示功能。