为什么AI的未来是灵活、可重用的基础模型
2023-01-03 16:22:24行业资讯

当学习一门不同的语言时,最简单的入门方法是填空练习。“下着倾盆大雨...”

通过犯错误并纠正错误,你的大脑(语言学家认为大脑是语言学习的固有机制)开始发现语法、词汇和单词序列中的模式--这不仅可以用来填补空白,还可以用来向其他人(或计算机、狗等)传达意义。

WX20230103-161800@2x.png

最后一点在谈论所谓的"基础模型"时很重要,这是中最热门(但报道不足)的话题之一。人工智能就现在。

根据2021年的一份审查文件,基础模型是,“在广泛的数据(通常使用规模化自我监督)上训练的,可以适应广泛的下游任务。”

在非学术语言中,就像学习填空题一样,基础模型学习的方式可以在以后应用于其他任务,这使得它们比当前的人工智能模型更灵活。

基础模型为何不同?

基础模型的训练方式解决了人工智能的最大瓶颈之一:标记数据。

当(为了证明你不是机器人)一个网站让你选择“所有包含船的图片”时,你基本上是在贴标签。然后,这个标签可以被用来将船只的图像输入到一个算法中,这样它就可以在某个时候可靠地识别船只。这是人工智能模型的传统训练方式;使用人类标记的数据。这是一个耗时的过程,需要很多人来标记数据。

基础模型不需要这种类型的标签。他们不依赖于人工注释,而是使用填空方法和自生成反馈来不断学习和提高性能,而不需要人工监督。

这使得基础模型对于那些还没有广泛可用数据的行业来说更容易访问。事实上,IBM研究员兼首席技术官Dakshi Agrawal表示,IBM公司人工智能,取决于你训练基础模型的领域,几千兆字节的数据就足够了。

对于像您这样的用户来说,这些复杂的模型可能听起来很遥远,但您几乎肯定在网上的某个时候看到过基础模型在工作。其中比较著名的有GPT-3语言模型,在被喂入著名作家的作品后,可以产生令人瞩目的模仿;还有DALL-E,根据用户的提示产生令人惊艳的图像。

但是基础模型并不局限于人类语言。

除了创造新的娱乐,基金会模型带来的灵活性可以帮助加速突破性的医学研究、科学进步、工程、建筑甚至编程。

突现性

基础模型具有两个非常有趣的特性:涌现和同质化。

突现意味着模型显示出前几代没有的新的意想不到的特性。这通常发生在模型尺寸增大时。做基本算术推理的语言模型是模型的涌现性质的一个例子,这有点出乎意料。

同质化是一个复杂的术语,它指的是经过训练能够理解和使用英语语言来执行不同任务的模型。这可能包括总结一段文本,以著名作家的风格输出一首诗,或者解释人类给出的命令(GPT-3语言模型就是一个很好的例子)。

但是基础模型并不局限于人类语言。从本质上讲,我们教计算机做的是在过程或现象中找到模式,然后在特定条件下复制。

让我们用一个例子来解释它。以分子为例。物理学和化学规定分子只能以一定的构型存在。下一步将是确定分子的用途,如药物。然后,基础模型可以使用大量的医学数据进行训练,以了解不同的分子(即药物)在治疗疾病时如何与人体相互作用。

当然,像这样的模式也会产生争议。

这种理解然后可以被用来“微调”基础模型,这样它就可以对哪种分子在特定情况下可能起作用提出建议。这可以大大加快医学研究的速度,让专业人员只需要求模型提出可能具有某些抗菌特性的分子,或者可能作为某种病毒的药物。

然而,如前所述,这有时会产生意想不到的结果。最近,一组科学家利用AI基金会模型发现罕见疾病的治疗方法,他们发现同样的模型也可以用来发现人类已知的最强大的化学武器。

基础性担忧

一个小小的迹象表明,这些模型可以带来什么样的巨大变化,那就是提供“提示生成器”的公司的兴起,这些公司利用人类为Midjourney或DALL-E等模型提供提示,可靠地输出有趣或准确的图像。

当然,这样的模型会引起争议。最近,许多艺术家公开反对使用他们的作品来训练图像生成模型。

还有一个案例是关于训练一个大规模模型所需的能源使用。此外,创建基础模型所需的大量计算资源意味着,只有世界上最大的科技公司才能负担得起培训他们的费用。

而且,正如Agrawal解释的那样,提高这些模型的培训和使用效率意味着它们将以越来越快的速度被更多的人所使用,从而降低能源消耗和成本。

这些模型的另一个更基本的(抱歉)问题是,原始模型中的任何偏差或错误都可能转移到用它们构建的工具中。因此,如果种族主义语言被用作语言模型的训练数据,它可能会导致一些攻击性的输出,甚至对有问题的公司提起诉讼。

避免这种情况的一种方法是手动剔除不需要的训练数据,但另一种更先进的方法是使用所谓的合成数据。合成数据是由人工智能模型生成的重要虚假数据,用于模拟真实的数据,但其方式更为可控。这对于确保基础模型在学习过程中不接收任何攻击性或隐私敏感的数据非常有用。

更先进的AI模型会抢走我们的饭碗吗?

嗯,是也不是。

大多数人工智能研究人员将这些模型视为一种工具。就像电动螺丝刀意味着组装一个木制结构所需的时间更少一样,电动螺丝刀仍然需要一个人来操作。

以IBM的基础模型Ansible Wisdom为例。为了找出计算机是否可以被教会编程,研究人员对一个模型进行了微调,以生成以前必须手动编写的Ansible代码片段。有了它,开发者可以使用自然语言来要求模型例如建议部署新的web服务器的可靠自动化。

Agrawal认为这将彻底改变程序员的工作。

整个创新周期将因AI而加速。例如,如果您查看代码,通过使用基础模型,使用第一代基础模型编码会变得快得多。我相信它将在短短几年内使生产力翻一番。

该公司正在与红帽合作,将该模型作为一个开源项目发布。红帽以开源操作系统Linux的发布和维护而闻名。

此用途类似于电动螺丝刀。它需要一个平凡的任务,并使用一个工具来自动化它的一部分,以更有效地执行任务,节省开发人员的时间,他们可以用来进行更多的创造性努力。

“它可以接管人类今天正在做的活动,人类将继续从事其他活动。我认为80%的美国人口曾经从事农业。现在只有不到2%的人(根据美国农业部的ERS - Ag和食品部门与经济)--人类转移到其他活动中,与此沿着,我们的生活质量也得到了提高,”Agrawal说。

基础模型有潜力改变许多目前对人类来说单调乏味或重复的过程。它们还为我们创造出激进的、不可预测的解决方案,以解决我们所面临的一些最棘手的问题提供了可能性。实际上,基础模型可能意味着知识创造和应用方式的彻底范式转变。关键将是确保这些模式在适当的保障措施到位的情况下向更广泛的公众开放。

内容提供者 IBM公司 和TNW