当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] OpenAI发布新旗舰模型 GPT-4o:集成文本、视觉和音频功能,定义AI体验新标准

本帖最后由 小哪吒 于 5-14 08:15 编辑

Screenshot_2024_05_13_at_1.05.28_PM_1__1_.webp

【北京时间5月14日凌晨1点】OpenAI 在其春季发布会的直播中宣布了其新的旗舰生成式 AI 模型,命名为 GPT-4o,其中“o”代表“omni”,象征着该模型在处理文本、语音和视频方面的全面能力。GPT-4o 改变了 AI 模型与多模式输入交互的方式。通过无缝组合文本、图像和音频,GPT-4o 提供了更丰富、更具吸引力的用户体验。
WX20240514-080818@2x.png

OpenAI 的首席技术官 Mira Murati 表示,GPT-4o 提供了相当于“GPT-4 级别”的智能,同时显著提升了跨多种模式和媒体的处理能力。

“GPT-4o 能够通过语音、文本和视觉进行推理,”Murati 在周一于 OpenAI 旧金山办公室举行的流媒体演示中提到。“这一点至关重要,因为我们正在探索未来人机交互的新方式。”

GPT-4 Turbo 作为 OpenAI 之前推出的“领先”和“最先进”模型,已经能够处理图像和文本的组合,并完成从图像中提取文本或描述图像内容等任务。而 GPT-4o 的新特性在于增加了对语音的支持。

GPT-4o 显著提升了 OpenAI 的人工智能聊天机器人 ChatGPT 的用户体验。尽管该平台已经提供了语音模式,使用文本转语音模型来转录聊天机器人的响应,但 GPT-4o 对此进行了显著增强,使用户能够更自然地与 ChatGPT 进行互动。例如,用户现在可以向 GPT-4o 支持的 ChatGPT 提问,并在其回答时打断它。OpenAI 声称该模型能够提供“实时”响应,并能识别用户声音中的微妙差别,从而生成带有“一系列不同情感风格”的声音,包括唱歌。

GPT-4o 还增强了 ChatGPT 的视觉能力。现在,给定一张照片或桌面屏幕截图,ChatGPT 能够迅速回答相关问题,无论是询问“这段软件代码发生了什么?”还是“这个人穿的是什么牌子的衬衫?”

此外,ChatGPT 的桌面应用程序在编码任务中也得到了应用。穆拉蒂指出,这些功能未来将继续发展。目前,GPT-4o 能够查看并翻译不同语言的菜单图片,而未来,该模型甚至可能允许 ChatGPT “观看”现场体育比赛并解释规则。

WX20240514-075345@2x.png

“我们意识到这些模型正变得越来越复杂,但我们的目标是让交互体验实际上变得更加自然和轻松,让您几乎不会注意到用户界面,而只专注于与 ChatGPT 的协作,”穆拉蒂说道。“过去几年,我们一直专注于提升这些模型的智能水平……但这是我们首次在易用性方面迈出了一大步。”

OpenAI 还声称,GPT-4o 在多语言能力上也取得了进步,在大约 50 种语言中的性能得到了增强。在 OpenAI 的 API 和微软的 Azure OpenAI 服务中,GPT-4o 的速度是 GPT-4 Turbo 的两倍,价格仅为 GPT-4 Turbo 的一半,同时提供了更高的速率限制。

目前,语音功能尚未对所有 GPT-4o API 的客户开放。OpenAI 以潜在的滥用风险为由,计划在未来几周内首先向“一小群值得信赖的合作伙伴”推出对 GPT-4o 新音频功能的支持。

从今天起,GPT-4o 将在 ChatGPT 的免费套餐中提供,并为 OpenAI 的高级 ChatGPT Plus 和 Team 计划订阅者(消息限制“高出 5 倍”)提供服务。(OpenAI 指出,当用户达到速率限制时,ChatGPT 将自动切换到较旧且功能较弱的 GPT-3.5 模型。)基于 GPT-4o 的改进 ChatGPT 语音体验的 alpha 版本将在下个月提供给 Plus 用户。因此,除了面向企业的选项外,现在也有了面向普通消费者的选择。

在相关新闻中,OpenAI 宣布将发布更新后的 ChatGPT 用户界面,其中包括新的、“更具对话性”的主屏幕和消息布局,以及适用于 macOS 的 ChatGPT 桌面版本,用户可以通过键盘快捷键提问或讨论截图。ChatGPT Plus 用户将首先体验到该应用程序,而 Windows 版本预计将在今年晚些时候推出。
WX20240514-080000@2x.png

此外,GPT Store——OpenAI 提供的库和创建工具,用于基于其 AI 模型构建的第三方聊天机器人,现已对 ChatGPT 免费层的用户开放。免费用户现在可以利用以前仅付费用户才能享受的 ChatGPT 功能,如允许 ChatGPT “记住”未来交互的偏好、上传文件和照片以及在网络上搜索及时问题的答案。

OpenAI 首席执行官 Sam Altman 对 GPT-4o 赞不绝口,预示着人类正步入一个与 AI 互动更加自然、直观的新时代。
WX20240514-072014@2x.png


声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海