OpenAI称GPT-4会在考试中超过90%的人-北京着陆云科技有限公司

OpenAI称GPT-4会在考试中超过90%的人

2023-03-15 10:36:42行业资讯

OpenAI周二宣布了GPT-4的正式上市，这是它在构建呼叫和响应深度学习模型方面的最新里程碑，似乎可以在重要考试中超越它的血肉创造者。

根据OpenAI的说法，该模型展示了“在各种专业和学术基准上的人类水平的表现”GPT-4可以在前10%的考生中通过模拟律师考试，而它的前身GPT-3.5（ChatGPT的基础）得分在后10%左右。

GPT-4在其他各种考试中也表现出色，比如SAT数学（800分中的700分）。然而，它并不是普遍的能力，在美联社英语语言和作文中只得了2分。

需要考虑的一件事是： OpenAI的GPT系列本质上是一个反流引擎家族，它利用训练它的材料，重新组装它来解决你的问题。有时它是对的，有时它是错的。它能回忆起考试的细节，对你来说可能并不那么令人印象深刻，或者它更多的是对我们人类必须参加的考试类型的评论。

GPT-4是一个大型多模态模型，与大型语言模型相反。它旨在通过文本和图像输入接受查询，答案以文本形式返回。它最初通过等待的GPT-4应用编程接口提供，并以纯文本的方式提供给ChatGPT的订阅者。基于图像的输入仍在改进中。

尽管增加了视觉输入机制，OpenAI并没有公开或提供对其模型制作的可见性。OpenAI选择不公布其规模、训练方式或过程中的数据的细节。

该公司在其技术论文中表示：“考虑到GPT-4等大型模型的竞争格局和安全影响，本报告没有包含关于架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法或类似的进一步细节。”

在 YouTube上的直播中，OpenAI总裁兼联合创始人Greg Brockman演示了GPT-4和GPT-3.5之间的区别，他要求模特们用一句话概括OpenAI GPT-4博客文章，每个单词都以字母“G”开头。“

GPT-3.5根本没有尝试。GPT-4产生了突破性的、宏伟的收益，极大地激励了通用AI目标。当布罗克曼告诉模型，句子中包含的“AI”不算数时，GPT-4修改了它的反应，在另一个充满G的句子中没有“AI”。

然后，他让GPT-4为Discord机器人生成Python代码。更令人印象深刻的是，他拍摄了一张手绘的笑话网站模型图片，将图片发送给Discord，关联GPT-4模型用HTML和JavaScript代码响应，实现了模型网站。

除了更好的推理能力（从考试成绩的提高中可以看出），GPT-4还旨在提高协作性（按照指示进行迭代以改进之前的输出），更好地处理大量文本（分析或输出大约25,000个单词的长篇小说长度的文本块），并接受基于图像的输入（用于对象识别，尽管这种能力尚未公开）。

更重要的是，根据OpenAI的说法，GPT-4应该比它的前辈更不可能脱轨。

“我们花了六个月反复训练GPT-4，利用了我们的对抗性测试计划以及ChatGPT的经验教训，在真实性、可操纵性和拒绝超出防护栏方面取得了我们有史以来最好的结果（尽管远非完美）”。

OpenAI承认GPT-4像它的祖先一样“对事实产生幻觉并犯推理错误”，但该组织坚持认为该模型在较小程度上这样做。

该公司解释说：“虽然仍然是一个真实的的问题，GPT-4相对于以前的模式明显减少幻觉（这本身一直在改善与每一个迭代），”。“在我们的内部对抗性事实评估中，GPT-4的得分比我们最新的GPT-3.5高出40%。“

OpenAI总结道：“还有很多工作要做，我们期待着通过社区的集体努力，在模型的基础上进行建设、探索和贡献，来改进这个模型。”

不可否认的是：“真正的人工智能”离我们越来越近了！