讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

投稿
APP
微信扫一扫获取更多

讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

2024-11-14 18:07:54

图灵汇官网

讯飞开放平台最近发布了一款全新的多模态交互大模型。这款模型不仅增强了语音交互功能，还支持音视频流的实时互动。新增的功能包括多模态、高度拟人化以及个性化服务，能让语音、视觉和虚拟数字人交互结合起来，一键操作就能完成多项任务。

据介绍，这个大模型首次应用了高度拟人的数字人技术。数字人的动作会精确配合语音内容，生成生动的表情和肢体动作，让人工智能的表现更加鲜活。通过整合文本、语音和表情，模型实现了跨模态语义的一致性，确保情感表达真实且连贯。

此外，模型具备高度拟人的快速交互能力。它采用统一的神经网络架构，从语音输入到语音输出全程端到端建模，反应迅速且表现流畅。模型还能敏锐捕捉情绪变化，根据指令灵活调整声音的节奏、音量和角色设定。

在多模态视觉交互方面，该模型可以理解并识别各种场景和物品，全面感知背景信息。通过分析语音、手势、行为和情绪，模型能给出更精准的反馈。用户可以用语音和视频与数字人自然交流，数字人的表情也会随着说话内容变化。另外，星火超拟人数字人支持多模态交互，能够识别摄像头捕捉的画面，比如孙悟空与奥特曼同框、面霜的品牌功效、花卉种类等。

请注意，本文包含部分广告内容，仅供参考阅读。