讯飞开放平台最近发布了一款全新的多模态交互大模型。这款模型不仅增强了语音交互功能,还支持音视频流的实时互动。新增的功能包括多模态、高度拟人化以及个性化服务,能让语音、视觉和虚拟数字人交互结合起来,一键操作就能完成多项任务。
据介绍,这个大模型首次应用了高度拟人的数字人技术。数字人的动作会精确配合语音内容,生成生动的表情和肢体动作,让人工智能的表现更加鲜活。通过整合文本、语音和表情,模型实现了跨模态语义的一致性,确保情感表达真实且连贯。
此外,模型具备高度拟人的快速交互能力。它采用统一的神经网络架构,从语音输入到语音输出全程端到端建模,反应迅速且表现流畅。模型还能敏锐捕捉情绪变化,根据指令灵活调整声音的节奏、音量和角色设定。
在多模态视觉交互方面,该模型可以理解并识别各种场景和物品,全面感知背景信息。通过分析语音、手势、行为和情绪,模型能给出更精准的反馈。用户可以用语音和视频与数字人自然交流,数字人的表情也会随着说话内容变化。另外,星火超拟人数字人支持多模态交互,能够识别摄像头捕捉的画面,比如孙悟空与奥特曼同框、面霜的品牌功效、花卉种类等。
请注意,本文包含部分广告内容,仅供参考阅读。