OpenAI新王炸:ChatGPT语音助手可以“看”人说话了,能实时视频对话

图灵汇官网

OpenAI 推出了全新的高级语音功能,让实时视频对话成为可能。这项备受期待的新功能经过近七个月的研发与测试后,于 12 月 12 日正式发布。

这次更新的重点放在移动应用上,新增了视频通话和屏幕共享功能。这些改进依托于 OpenAI 的多模态模型 GPT-4o 的高级语音模式。在演示中,用户只需点击聊天界面里的语音按钮,再点选视频按钮就能开启视频对话。如果需要共享屏幕,用户可以从一个包含三个选项的菜单中选择“共享屏幕”。这样的设计不仅增加了互动性,也让用户体验更加顺畅。

OpenAI 的团队展示了多个实际应用场景,比如,利用视频对话,GPT 能够识别用户的穿着并作出回应。同时,它还能解读短信内容和图片,进而给出相关建议。此外,用户可以通过这个新功能让 GPT 协助检查文档或学习新技能。例如,用户可以向 GPT 展示制作手冲咖啡的设备,并询问具体的操作步骤,GPT 会评估操作流程并提出优化建议。

这项功能主要面向 ChatGPT Plus 和 Pro 套餐的订阅者以及所有 Team 用户,他们将在接下来几天内通过 App 使用该功能。预计欧盟及其周边国家的用户也会在近期享受到这一服务。企业版和教育版则计划于明年 1 月推出。

为了让用户感受到节日气氛,OpenAI 特别设置了“圣诞老人声音”功能,此功能将持续到明年年初,用户可通过雪花图标激活。

回溯历史,OpenAI 最早在今年 5 月展示 GPT-4o 时就提到了语音模式,不过其落地过程并不顺利。最初打算在 6 月末向部分 Plus 用户开放,但由于安全性与稳定性问题被推迟。最终,7 月末只有少数付费用户获得了初步体验,但当时的功能还不完整,缺少一些此前展示的内容,比如计算机视觉功能。

此次新功能的推出表明 ChatGPT 在语音和视频交互领域取得了重要进展。

本文来源: 互联网 文章作者: e公司