TMGM官网：OpenAI推出GPTo，改进ChatGPT的文本、视觉和音频能力

HUBx 开设真实账户客户后台登录

您当前位置：首页>新闻中心> TMGM官网：OpenAI推出GPTo，改进ChatGPT的文本、视觉和音频能力

TMGM官网：OpenAI推出GPTo，改进ChatGPT的文本、视觉和音频能力

发布时间： 2024-05-14 浏览量：68

图片.png

OpenAI 对其人工智能模型的最新更新可以模仿人类言语反应的节奏，甚至可以尝试检测人们的情绪。

这种效果让人想起 2013 年斯派克·琼斯 (Spike Jonze) 的动作“她”(Her)，其中（人类）主角爱上了人工智能操作系统，导致了一些并发症。

虽然很少有人会觉得新模型很诱人，但 OpenAI 表示，它的运行速度确实比以前的版本更快，并且可以实时对文本、音频和视频进行推理。

该公司在一次简短的直播更新中宣布，GPT-4o 是“omni”的缩写，将为 OpenAI 广受欢迎的 ChatGPT 聊天机器人提供支持，并将在未来几周内向用户提供，包括使用免费版本的用户。首席执行官萨姆·奥尔特曼（Sam Altman）并不是此次活动的主持人之一，他只是在社交媒体网站 X 上发布了“她”这个词。

在首席技术官 Mira Murati 和其他高管的演示中，人工智能机器人实时聊天，根据要求在声音中添加情感，特别是“更多戏剧性”。它还帮助完成解决简单数学方程所需的步骤，而无需先给出答案，并协助在计算机屏幕上解决更复杂的软件编码问题。

它还尝试通过观看一个人脸部的自拍照视频来推断他的情绪状态（因为他在微笑，所以认为他很高兴），并翻译了英语和意大利语，以展示它如何帮助说不同语言的人进行对话。

Gartner 分析师 Chirag Dekate 表示，这次更新持续了不到 30 分钟，给人的印象是 OpenAI 正在追赶更大的竞争对手。

“OpenAI 展示的许多演示和功能看起来很熟悉，因为我们在 Google 在 Gemini 1.5 专业版发布中看到了这些演示的高级版本，”Dekate 说。 “虽然 Open AI 去年在 ChatGPT 和 GPT3 方面拥有先发优势，但与同行（尤其是 Google）相比，我们现在看到了能力差距的出现。”

谷歌计划在周二和周三举行 I/O 开发者大会，预计将在会上公布其人工智能模型 Gemini 的更新。

以上信息内容由tmgm官网搜集整理，不对新闻内容负法律责任，并不作为投资依据和建议，请tmgm官网受众谨慎决策，避免损失。TMGM官网感谢您的观看！