OpenAI最新大模型曝光：剑指多模态，GPT-4之后最大升级

张娇

2023-09-20 18:18:58

科技巨头之间的较量再次升级！据知名科技媒体The Information的最新报道，OpenAI正紧锣密鼓地筹备推出多模态模型GPT-vision，这或将成为其继GPT-4之后的最大革新举措。与此同时，谷歌也不甘落后，其多模态模型Gemini的进展亦成为市场关注焦点。

OpenAI的多模态进击：OpenAI即将发布GPT-vision，一款旨在整合图像识别与生成能力的大模型。该模型将具备根据手绘草图生成网页代码、分析文本并产出可视化图表等功能。这一消息源于The Information的独家爆料，尽管OpenAI官方尚未对此作出正式回应，但公司此前已公开展示过类似多模态模型的初步成果。
Gemini的崛起：谷歌DeepMind团队开发的Gemini模型以其强大的功能和集成的文本与图像输出能力，引发业界广泛关注。Gemini不仅融合了AlphaGo的先进经验，如强化学习和树搜索技术，还受益于YouTube提供的丰富训练数据资源。谷歌CEO皮查伊透露，Gemini能够使用工具和API，展现出显著的技术优势。
竞争态势与商业模式：这场多模态模型的竞争不仅是技术实力的比拼，也反映了两家公司在商业化道路上的探索。谷歌计划通过其Google Cloud Vertex AI云服务平台提供Gemini服务，预计每月收取每位用户30美元费用，此举有望开辟新的收入增长点。而OpenAI也正通过金融和其他应用领域，将GPT-4的潜力转化为实际收益。

在这场科技巨头间的多模态模型竞赛中，OpenAI与谷歌均展现出了强大的创新能力和市场洞察力。尽管目前尚无确切消息表明哪一方将取得最终胜利，但可以预见的是，这场较量将推动人工智能技术的进一步发展与应用。让我们拭目以待，看看谁能率先在这一领域占据领先地位。

[1] https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm
[2] https://www.bigtechwire.com/2023/09/18/openai-is-ready-to-take-on-googles-gemini-with-gpt-vision/