OpenAI称GPT-4会在考试中超过90%的人
2023-03-15 10:36:42行业资讯

OpenAI周二宣布了GPT-4的正式上市,这是它在构建呼叫和响应深度学习模型方面的最新里程碑,似乎可以在重要考试中超越它的血肉创造者。

WechatIMG3010.jpeg

根据OpenAI的说法,该模型展示了“在各种专业和学术基准上的人类水平的表现”GPT-4可以在前10%的考生中通过模拟律师考试,而它的前身GPT-3.5(ChatGPT的基础)得分在后10%左右。

GPT-4在其他各种考试中也表现出色,比如SAT数学(800分中的700分)。然而,它并不是普遍的能力,在美联社英语语言和作文中只得了2分。

需要考虑的一件事是: OpenAI的GPT系列本质上是一个反流引擎家族,它利用训练它的材料,重新组装它来解决你的问题。有时它是对的,有时它是错的。它能回忆起考试的细节,对你来说可能并不那么令人印象深刻,或者它更多的是对我们人类必须参加的考试类型的评论。

GPT-4是一个大型多模态模型,与大型语言模型相反。它旨在通过文本和图像输入接受查询,答案以文本形式返回。它最初通过等待的GPT-4应用编程接口提供,并以纯文本的方式提供给ChatGPT的订阅者。基于图像的输入仍在改进中。

尽管增加了视觉输入机制,OpenAI并没有公开或提供对其模型制作的可见性。OpenAI选择不公布其规模、训练方式或过程中的数据的细节。

该公司在其技术论文中表示:“考虑到GPT-4等大型模型的竞争格局和安全影响,本报告没有包含关于架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似的进一步细节。”

在 YouTube上的直播中,OpenAI总裁兼联合创始人Greg Brockman演示了GPT-4和GPT-3.5之间的区别,他要求模特们用一句话概括OpenAI GPT-4博客文章,每个单词都以字母“G”开头。“

GPT-3.5根本没有尝试。GPT-4产生了突破性的、宏伟的收益,极大地激励了通用AI目标。当布罗克曼告诉模型,句子中包含的“AI”不算数时,GPT-4修改了它的反应,在另一个充满G的句子中没有“AI”。

然后,他让GPT-4为Discord机器人生成Python代码。更令人印象深刻的是,他拍摄了一张手绘的笑话网站模型图片,将图片发送给Discord,关联GPT-4模型用HTML和JavaScript代码响应,实现了模型网站。

除了更好的推理能力(从考试成绩的提高中可以看出),GPT-4还旨在提高协作性(按照指示进行迭代以改进之前的输出),更好地处理大量文本(分析或输出大约25,000个单词的长篇小说长度的文本块),并接受基于图像的输入(用于对象识别,尽管这种能力尚未公开)。

更重要的是,根据OpenAI的说法,GPT-4应该比它的前辈更不可能脱轨。

“我们花了六个月反复训练GPT-4,利用了我们的对抗性测试计划以及ChatGPT的经验教训,在真实性、可操纵性和拒绝超出防护栏方面取得了我们有史以来最好的结果(尽管远非完美)”。

OpenAI承认GPT-4像它的祖先一样“对事实产生幻觉并犯推理错误”,但该组织坚持认为该模型在较小程度上这样做。

该公司解释说:“虽然仍然是一个真实的的问题,GPT-4相对于以前的模式明显减少幻觉(这本身一直在改善与每一个迭代),”。“在我们的内部对抗性事实评估中,GPT-4的得分比我们最新的GPT-3.5高出40%。“

OpenAI总结道:“还有很多工作要做,我们期待着通过社区的集体努力,在模型的基础上进行建设、探索和贡献,来改进这个模型。”

不可否认的是:“真正的人工智能”离我们越来越近了!