OpenAI新王炸：ChatGPT语音助手可以“看”人说话了，能实时视频对话

投稿
APP
微信扫一扫获取更多

OpenAI新王炸：ChatGPT语音助手可以“看”人说话了，能实时视频对话

e公司

2024-12-13 11:59:43

图灵汇官网

OpenAI 推出了全新的高级语音功能，让实时视频对话成为可能。这项备受期待的新功能经过近七个月的研发与测试后，于 12 月 12 日正式发布。

这次更新的重点放在移动应用上，新增了视频通话和屏幕共享功能。这些改进依托于 OpenAI 的多模态模型 GPT-4o 的高级语音模式。在演示中，用户只需点击聊天界面里的语音按钮，再点选视频按钮就能开启视频对话。如果需要共享屏幕，用户可以从一个包含三个选项的菜单中选择“共享屏幕”。这样的设计不仅增加了互动性，也让用户体验更加顺畅。

OpenAI 的团队展示了多个实际应用场景，比如，利用视频对话，GPT 能够识别用户的穿着并作出回应。同时，它还能解读短信内容和图片，进而给出相关建议。此外，用户可以通过这个新功能让 GPT 协助检查文档或学习新技能。例如，用户可以向 GPT 展示制作手冲咖啡的设备，并询问具体的操作步骤，GPT 会评估操作流程并提出优化建议。

这项功能主要面向 ChatGPT Plus 和 Pro 套餐的订阅者以及所有 Team 用户，他们将在接下来几天内通过 App 使用该功能。预计欧盟及其周边国家的用户也会在近期享受到这一服务。企业版和教育版则计划于明年 1 月推出。

为了让用户感受到节日气氛，OpenAI 特别设置了“圣诞老人声音”功能，此功能将持续到明年年初，用户可通过雪花图标激活。

回溯历史，OpenAI 最早在今年 5 月展示 GPT-4o 时就提到了语音模式，不过其落地过程并不顺利。最初打算在 6 月末向部分 Plus 用户开放，但由于安全性与稳定性问题被推迟。最终，7 月末只有少数付费用户获得了初步体验，但当时的功能还不完整，缺少一些此前展示的内容，比如计算机视觉功能。

此次新功能的推出表明 ChatGPT 在语音和视频交互领域取得了重要进展。