GPT-4o为何背离OpenAI打起感情牌原因揭开--快科技--科技改变未来

正文内容 评论（0）

GPT-4o为何背离OpenAI打起感情牌原因揭开

2024-05-15 23:02:18 出处：太平洋科技作者：赵甜怡编辑：振亭评论(0)

#ChatGPT #GPT-4

“你为什么说话的时候也会叹气？”

“是吗？我不知道，可能只是习惯，也许是从你那儿学的。”

在电影《her》中，AI语音助手Samantha拥有迷人的声线（由演员斯嘉丽配音），温柔体贴地替男主处理好各种邮件，提醒开会。在生活上，她又幽默风趣，时常让男主开怀大笑。

就在今天的凌晨1点，OpenAI将这个“Samantha”带到了我们的现实世界。

打破机器与人的边界

“哇，慢一点，Mark别喘太快，你可不是个吸尘器。”

技术人员Mark在演示中，让新的旗舰模型GPT-4o对他的呼吸进行反馈。他在现场装出气喘吁吁的样子，大口喘气。GPT-4o立马给出了这样幽默的回复。

这个能够感受你的呼吸节奏、用丰富的情绪作出回答的，就是OpenAI这次发布会的“主角”—— 实时语音助手GPT-4o。

语音助手早已进入普通人的家里，一声“小爱同学”就可以得知今天的天气和新闻。但这与电影中的语音助手差距就在于对话的自然性。

与人类对话和与机器对话有什么区别？

OpenAI的研发团队也在不断地问自己这个问题。为什么有的语音助手一听就是机器，真实感的关键是什么？

OpenAI在电影《her》中找到了答案。语音助手的真实感关键在于三点：

首先是实时性。我们在自然对话时，在「听」和「说」的同时会思考接下来说什么，而机器却是需要人类说完，给到完整的指令，才会反应之后执行。这就带来了2、3秒的延迟。

而这次的GPT-4o，它可以在短至 232 毫秒的时间内响应我们。这比现有的响应速度提高了6～9倍！并且，这个速度是接近人类在对话中的响应速度的，更加强了“对话感”。

其次是随机性。技术人员Mark在演示中，多次用新的问题打断GPT-4o对上一个问题的回答。但它仍然能够丝滑回应。并且可以以多种不同的情感风格生成语音。

在发布会现场，GPT-4o在讲一个关于机器人和爱情的睡前故事时，不断切换情绪，越来越“戏剧化”，它的“机灵劲儿”逗得全场观众哈哈大笑。

最后也是最关键的一点：视觉。

我们在聊天对话时，除了语音信息以外，视觉信息同样重要。OpenAI也关注到了这一点。

在电影《her》中，男主将Samantha放入口袋，在沙滩上约会，欣赏海岸的美景。在OpenAI的官方视频中，ChatGPT替盲人用户“观察”着这个世界，并帮用户顺利的打上了车。

GPT-4o可听、可说、可看，像是一个能力超群的朋友。

讨好用户是为打倒谷歌？

这次的发布会看个热闹的同时，外界对于OpenAI保持了疑问的态度，为什么这次AI的态度会一反常态，甚至不惜违背之前定下的规则。

从OpenAI发布ChatGPT开始，它的主要定位是服务企业。规则中还专门提示用户“不建议和ChatGPT产生情感关系”。在今年年初GPTstore上线后，OpenAI还专门删除了不少虚拟女友类的内容。

而现在，OpenAI却和原来背道而驰。

从发布会预热开始，就与电影《her》深深绑定。音频AGI研究负责人Alexis Conneau专门将自己的主页背景更换为电影《her》的剧照。在发布之后，Altman也紧接着在推特发布了内容为“her”的博文。而这部电影的主题正是人类和人工智能助手的爱情故事。

并且在直播演示中，三位技术大佬不断展示GPT-4o幽默、搞怪、害羞等拟人化的情绪。现场GPT-4o还回答了“哎呀别说了，你都让我脸红了！”的语句。

要知道，在此之前，如果你对ChatGPT发出有关性别的设定，它会直接冰冷地回答：“我无法完成此提示，因为假设个人的性别可能会令人反感。”

OpenAI如此改变的原因到底是什么？

归结这是一次精彩的宣传战。而最终目标，就是为了“狙击”谷歌。

OpenAI现在有超过1亿用户，但从去年6月份开始，用户增长就已见顶。但谷歌在全球有近30亿的用户，庞大的用户基础是谷歌的优势所在。想要成为AI行业的领头企业，谷歌是OpenAI必须要征服的一座大山。

如今，AI赛道的抢占已经悄然打响。

在这个赛道中，所有玩家都在疯狂争夺领地，建立护城河。在这个过程中，OpenAI也逐渐意识到C端用户的重要。

直播仅仅用17分钟的演示就已经吊足了所有看客的胃口。首席技术官Mira还在最后宣布， 在未来的几周内，GPT-4o会向所有人免费开放！

用技术和价格争取更多的用户，是OpenAI现在的核心任务。

搜索哪去了？

在发布会之前，关于OpenAI将发布搜索引擎的新闻一度引起了热议。还有网友扒出SearchGPT的页面，收到了灰度测试。当网友们都以为这次发布会将隆重推出搜索服务时，OpenAI却选择再向前走一步。

搜索引擎旨在查找和提供信息。而智能助手则是着重自动化和优化任务执行，其功能范围包含了信息查找，但绝不仅止于此。

传统的搜索引擎，通过用户关键词查询的方式开启信息检索，将搜索到的信息以网页链接的形式进行罗列。

在2023年中，搜索市场又涌现了不少“新生力量”——AI搜索。例如，Perplexity AI、Arc Search等，大多遵从了“Answer First”原则——在面对用户发出的对话式提问时，优先用文本总结，而非网页链接的方式来回答用户提出的问题。在回答的文本中，还会以引用的小标识形式来标注信息来源，用户点击后才会进入相关网页。

有了AI大模型的加持，搜索的交互从「关键词查询」到了「对话式提问」，用户体验上了一个台阶。

但是，声音是语言的关键，视觉才是人类输入的第一信息。

这一次，OpenAI直接拓宽了开启交互的渠道，将一个单调的对话框变成一个语音键、一个摄像头，甚至可以同时调动三者，实现多模态交互。所有让人兴奋不已、眼花缭乱的功能只告诉了我们一个信息：

你的下一个搜索工具，何必是浏览器？

如此一个“集大成者”的智能助手是否让你感觉一丝熟悉？没错，就是Siri。

在OpenAI的发布会之前，已经有消息爆出OpenAI和苹果达成了合作，Siri将接入ChatGPT。消息的真实性尚且无法确定。

与此同时，被瞄准的谷歌也不会坐以待毙。据传，在明日开启的2024年I/O开发者大会上，谷歌或将升级智能助手Pixie。它的出现能否将比赛推向新的热潮？苹果的Siri又会花落谁家？

毫无疑问，这个夏天AI的世界将会令我们更加惊喜。