什么是GPT-4?探索其在业务中的应用案例
发布日期 • May 23, 2024
在四月,LMSYS 的聊天机器人竞技场上,“im-also-a-good-gpt2-chatbot” 排在了顶级生成式人工智能的排行榜上。
同一款 AI 模型被揭示为 GPT-4o。名称中的“GPT2”并不代表 Open AI 之前的 AI 模型“GPT-2”。相反,它表示 GPT 模型的新架构,而“2”则暗示了模型设计上的重大变化。
Open AI 的工程团队认为这是一个重要的变化,足以用新的版本号来命名。然而,营销团队则将其谦逊地呈现为 GPT-4 的延续,而不是完全的改头换面。
让我们看看 GPT-4o 的新特性,它提供了什么以及如何在商业中使用它。
## 什么是 GPT-4o?
GPT-4o 是 Open AI 最新的旗舰生成式 AI 模型。“O”在 GPT-4o 中代表“Omni”,在拉丁语中意为“所有”。这与模型在处理文本、语音和视频方面的改进能力相辅相成。
它使用户与 AI 的互动变得更加轻松。Open AI 之前的生成式 AI 模型的迭代目标是让模型更聪明。GPT-4o 使得使用变得更简单,响应速度也快得多。
你可以向由 GPT-4o 驱动的 ChatGPT 提问,并在回答时打断它。模型会在你打断时进行倾听,并根据给定的输入实时重新构建响应。它能够捕捉用户语音中的细微差别,并生成不同情感的语音输出,包括唱歌。
OpenAI 的 CTO 说:“GPT-4o 可以在语音、文本和视觉上进行推理。这是非常重要的,因为我们正在展望人类与机器之间互动的未来。”
## GPT-4o 提供了什么?
以下是 GPT-4o 的一些主要亮点:
- **用户体验改善**:与 AI 的互动变得更加自然和简单。
- **多语言能力**:GPT-4o 在大约 50 种语言中表现更佳,使其在全球范围内更具可访问性。
- **性能提升**:GPT-4o 的速度是 GPT-4 Turbo 的两倍,成本仅为前一版本的一半,同时提供更高的速率限制。
- **增强的语音能力**:由于滥用的风险,改进的语音功能并不对所有客户开放,但 OpenAI 已开始向少数受信任的合作伙伴提供支持。
- **免费层的可用性**:GPT-4o 在 ChatGPT 的免费层中可用。ChatGPT Plus 的订阅者拥有 5 倍更高的消息限制。如果 GPT-4o 的速率限制被触及,模型会自动切换到 GPT-3.5。
- **用户体验改进**:OpenAI 提供了更具对话性的主页和消息布局。ChatGPT 的 macOS 版本(正在分阶段向 ChatGPT Plus 用户推出)允许用户通过键盘快捷键提问。Windows 版本的应用程序将于今年晚些时候推出。
- **提供自然对话**:模型能够处理打断,同时相应地调整其回答和语气。对话以自然的节奏进行。然而,模型可能会有短暂的停顿,以便思考回答。
你知道吗?你可以利用 GPT-4o 来提升你的网站销售速度。了解如何将 GPT-4o 作为销售代理使用。
## GPT-4o 的风险与担忧
企业中的生成式 AI 政策仍处于早期阶段。欧盟法规是唯一的重大法律框架。你需要自行决定什么构成安全的 AI。
OpenAI 使用准备框架来决定一个模型是否可以公开发布。它会测试模型的网络安全性、潜在的生物、化学、放射性或核威胁、说服能力和模型的自主性。模型的分数是其在任何类别中获得的最高等级(低、中、高或关键)。
GPT-4o 的担忧程度为中等,避免了可能颠覆人类文明的最高风险水平。
像所有生成式 AI 一样,GPT-4o 可能不会总是按你预期的方式表现。然而,相较于以前的模型,GPT-4o 显示出显著的改进。它可能会存在一些风险,例如深度伪造诈骗电话。为减少这些风险,音频输出仅提供预设的语音。
## GPT-4o 与 Open AI 以前的生成式 AI 模型对比
GPT-4o 提供了更好的图像和文本能力来分析输入内容。与以前的模型相比,GPT-4o 在回答复杂问题方面表现更佳,例如:“一个人穿的 T 恤品牌是什么?”例如,该模型可以查看另一种语言的菜单并进行翻译。
未来的模型将提供更先进的功能,例如观看体育赛事并解释其规则。
以下是 GPT-4o 相较于其他 Open AI 生成式 AI 模型的变化:
- **语音语调**:以前的 OpenAI 系统将 Whisper、GPT-4 Turbo 和 Text-to-Speech 结合在一个管道中,并配备推理引擎。它们仅访问口头单词,忽略语音的语调、背景噪声和多个说话者的声音。这限制了 GPT-4 Turbo 表达不同情感或语音风格的能力。
通过 GPT-4o,一个模型可以在文本和音频之间进行推理。这使得模型对背景中的语调和音频信息更为敏感,生成更高质量的响应,并具备不同的说话风格。
- **低延迟**:GPT-4o 的平均语音模式延迟为 0.32 秒。这比 GPT-3.5 的 2.8 秒平均延迟快了九倍,比 GPT-4 的 5.4 秒平均延迟快了 17 倍。
人类的平均响应时间为 0.21 秒。因此,GPT-4o 的响应时间更接近人类,使其适合用于实时语音翻译。
- **更好的标记化**:标记是模型可以理解的文本单元。当你使用大型语言模型 (LLM) 时,提示文本首先会转换为标记。当你用英语写作时,三个单词大约需要四个标记。
如果表示一种语言所需的标记更少,那么需要进行的计算就更少,文本生成速度也会提高。此外,这降低了 API 用户的成本,因为开放费用按每个标记的输入或输出进行计算。
在 GPT-4o 中,印地语、马拉地语、泰米尔语、特拉古语、古吉拉特语等印度语言受益,特别是显示出减少的标记。阿拉伯语减少了 2 倍,而东亚语言的标记减少了 1.4 倍到 1.7 倍。
## GPT-4o 与其他生成式 AI 模型对比
GPT-4 Turbo、Claude 3 Opus 和 Gemini Pro 1.5 是与 GPT-4o 比较的主要竞争者。Llama 3 400B 可能是未来的竞争者,但尚未完成。
以下是基于不同参数的 GPT-4o 与上述模型的比较:
- **大规模多任务语言理解(MMLU)**:该测试包括基础数学、美国历史、计算机科学、法律等任务。为了在此测试中取得高准确性,模型必须具备广泛的世界知识和解决问题的能力。GPT-4o 的表现优于其他 AI 模型。
- **研究生级别的 Google-Proof 问答(GPQA)**:选择题由生物学、物理学和化学领域的专家编写。这些问题质量高且非常困难:在相关领域拥有或正在攻读博士学位的专家能够达到 74% 的准确率。GPT-4o 的表现优于其他模型。
- **数学(MATH)**:中学和高中数学问题。GPT-4o 的表现优于其他模型。
- **HumanEval**:它测试用于检查代码生成的计算机代码的功能正确性。GPT-4o 的表现优于其他模型。
- **多语言小学数学(MSGM)**:小学数学问题被翻译成包括孟加拉语和斯瓦希里语在内的十种语言。Claude 3 Opus 在 MSGM 中表现优于 GPT-4o。
- **段落离散推理(DROP)**:需要理解完整段落的问题,例如在多个句子中添加、计数或排序值。GPT-4 Turbo 在 DROP 中表现优于 GPT-4o。
在比较 GPT-4 Turbo 和 GPT-4o 时,性能波动仅为几个百分点。然而,这些 LLM 基准未比较 AI 在多模态问题上的表现。这个概念是新的,衡量模型在文本、音频和视频之间推理能力的方法尚未出现。
GPT-4o 的表现令人印象深刻,展示了多模态训练的光明前景。
## GPT-4o 的应用场景
GPT-4o 能够有效地在
文本、音频和视频之间进行推理。这使得该模型适用于多种应用场景,例如:
- **实时计算机视觉和自然交互**:GPT-4o 现在可以像与人类交谈一样与您互动。您需要减少打字时间,使对话更加自然。它提供快速而准确的信息。
凭借更高的速度和视听能力,Open AI 展示了多种实时应用场景,您可以通过世界的视角与 AI 进行互动。这为导航、翻译、指导说明和理解复杂的视觉信息提供了机会。
例如,GPT-4o 可以在桌面、移动设备和未来可能的可穿戴设备上运行。您可以展示视觉或桌面屏幕来提问,而不是打字或在不同的模型和屏幕之间切换。
另一方面,GPT-4o 理解来自摄像头的视频输入并口头描述场景的能力对视觉障碍人士非常有用。它将像现实生活中的音频描述功能一样工作,帮助他们更好地理解周围环境。
- **企业应用**:GPT-4o 无缝连接您的设备输入,使与模型的交互变得更容易。凭借集成的模态和改进的性能,企业可以利用它来构建定制的视觉应用程序。
您可以在没有开源模型的地方使用它,并切换到定制模型以减少额外的步骤,从而降低成本。
## 利用 GPT-4o 生成商业潜在客户
GPT-4o 提升了性能和速度。Chatsimple 让用户将 GPT-4o 驱动的 AI 销售代理集成到网站中。目前,它允许您的网站访客回答复杂的问题,捕获潜在客户并更快地预约会议。
使用 Chatsimple,您可以训练这些代理回答访客的高度复杂问题。在未来,Chatsimple 可能会利用 GPT-4o 的能力在文本、视频和音频之间推理,从而训练 AI 销售代理处理多种媒体格式。
在此之前,让您的网站访客从 Chatsimple 的 AI 销售代理那里获得他们所需的帮助,然后再联系销售人员。
尝试 Chatsimple,让您的访客体验 GPT-4o 在回答与您的产品或服务相关的问题时的速度。