TMGM官网:OpenAI推出GPTo,改进ChatGPT的文本、视觉和音频能力
发布时间: 2024-05-14
浏览量:58

OpenAI 对其人工智能模型的最新更新可以模仿人类言语反应的节奏,甚至可以尝试检测人们的情绪。
这种效果让人想起 2013 年斯派克·琼斯 (Spike Jonze) 的动作“她”(Her),其中(人类)主角爱上了人工智能操作系统,导致了一些并发症。
虽然很少有人会觉得新模型很诱人,但 OpenAI 表示,它的运行速度确实比以前的版本更快,并且可以实时对文本、音频和视频进行推理。
该公司在一次简短的直播更新中宣布,GPT-4o 是“omni”的缩写,将为 OpenAI 广受欢迎的 ChatGPT 聊天机器人提供支持,并将在未来几周内向用户提供,包括使用免费版本的用户。首席执行官萨姆·奥尔特曼(Sam Altman)并不是此次活动的主持人之一,他只是在社交媒体网站 X 上发布了“她”这个词。
在首席技术官 Mira Murati 和其他高管的演示中,人工智能机器人实时聊天,根据要求在声音中添加情感,特别是“更多戏剧性”。它还帮助完成解决简单数学方程所需的步骤,而无需先给出答案,并协助在计算机屏幕上解决更复杂的软件编码问题。
它还尝试通过观看一个人脸部的自拍照视频来推断他的情绪状态(因为他在微笑,所以认为他很高兴),并翻译了英语和意大利语,以展示它如何帮助说不同语言的人进行对话。
Gartner 分析师 Chirag Dekate 表示,这次更新持续了不到 30 分钟,给人的印象是 OpenAI 正在追赶更大的竞争对手。
“OpenAI 展示的许多演示和功能看起来很熟悉,因为我们在 Google 在 Gemini 1.5 专业版发布中看到了这些演示的高级版本,”Dekate 说。 “虽然 Open AI 去年在 ChatGPT 和 GPT3 方面拥有先发优势,但与同行(尤其是 Google)相比,我们现在看到了能力差距的出现。”
谷歌计划在周二和周三举行 I/O 开发者大会,预计将在会上公布其人工智能模型 Gemini 的更新。
以上信息内容由tmgm官网搜集整理,不对新闻内容负法律责任,并不作为投资依据和建议,请tmgm官网受众谨慎决策,避免损失。TMGM官网感谢您的观看!