自计算机时代之初,科学家们就一直在尝试构建AI。在上世纪大部分时间里,学界主流的方法是创建庞大的事实和规则数据库,然后利用基于逻辑的计算机程序来做出决策。但本世纪以来出现了新的研究方法,那就是通过分析数据让计算机自学事实和规则,这导致该领域取得了重大进展。
在过去十年中,AI在诸如从医学影像中发现乳腺癌、玩转极其复杂的棋类游戏(比如国际象棋和围棋)甚至预测蛋白质结构等方面展现出了看似“超人”的能力。
而自大型语言模型(LLM)聊天机器人ChatGPT在2022年底问世以来,人们越来越普遍认为我们可能正处于复制类似人类的更加通用的智能——即通用人工智能(AGI)的边缘。Cohere ForAI非盈利研究实验室的负责人Sara Hooker表示:“这一转变对于该领域的重要性怎么说都不为过。”
AI是如何工作的?
尽管科学家们可以采取多种方法来构建AI系统,但机器学习是当今最广泛使用的技术。它涉及让计算机分析数据以识别模式,然后用这些模式来做出预测。
学习过程由算法控制——由人类编写一系列指令来告诉计算机如何分析数据——这个过程的输出结果是一个编码了所有发现模式的统计模型。然后,这个模型可以被输入新数据,以生成预测结果。
机器学习算法有很多种,但神经网络是当今最广泛使用的算法之一。这些算法是一系列松散模拟人脑的机器学习算法的集合,它们通过调整“人工神经元”网络之间的连接强度来进行学习,同时在训练数据中进行搜索。这种架构被目前许多流行的AI服务(比如文本和图像生成)所采用。
当前大多数前沿研究都涉及深度学习,它是指使用具有多层人工神经元的庞大神经网络。这一概念自20世纪80年代就已存在,但由于对数据和计算能力的极高要求,其应用受到了限制。然后在2012年,研究人员发现,被称为图形处理单元(GPU)的专用计算机芯片能够加速深度学习的过程。从那时起,深度学习便成为了相关研究领域的黄金标准。
“深度神经网络可以被看作是机器学习的强化版,”Hooker说,“它们不仅在计算成本上最为昂贵,而且通常规模庞大、功能强大且表达能力很强。”
然而,并非所有的神经网络都是一样的。不同的配置或者说“架构”适用于不同的任务。卷积神经网络的连接模式受到动物视觉皮层的启发,在视觉任务上表现出色。而具有内部记忆功能的循环神经网络,则专门处理序列数据。
AI算法还可以根据不同的应用进行不同的训练。最常见的方法是“监督学习”,它涉及人类为每个数据分配标签以指导AI的模式学习过程,例如你会给猫的图片加上“猫”的标签。
在“无监督学习”中,训练数据是未标记的,机器必须自行解决问题。这就需要更多的数据,并且可能难以实现——但因为学习过程不受人类偏见的限制,它可以导致更丰富和更强大的模型。最近LLM的突破性发展大多使用了这种方法。
最后一种主要的训练方法是“强化学习”,它让AI通过试错来学习。这最常用于训练游戏AI系统或机器人——包括类人机器人,如Figure 01,或那些踢足球的微型机器人——它涉及反复尝试任务,并根据正面或负面反馈更新一套内部规则。这种方法推动了Google Deepmind的开创性AlphaGo模型。
什么是生成式AI?
尽管深度学习在过去十年中取得了一系列重大成功,但很少有像ChatGPT这样引起公众想象的——其逼真的人类对话能力。这是几个生成式AI系统之一,它们使用深度学习和神经网络根据用户的输入内容生成输出内容——包括文本、图像、音频甚至视频。
像ChatGPT这样的文本生成器使用AI的一个子集进行操作,这个子集被称为“自然语言处理”(NLP)。这一突破性的起源可以追溯到2017年谷歌科学家引入的一种新颖的深度学习架构——“变换器”(Transformer)。
变换器算法专门用于对大量序列数据(尤其是大块书面文本)进行无监督学习。它们擅长于此,因为它们可以比以往任何方法更好追踪远距离数据点之间的关系,这使它们能够更好理解它们正在查看的内容的上下文。
“我接下来要说的话取决于我之前说过的话——我们的语言是随着时间联系在一起的,”Hooker说,“这种真正将单词视为整体的能力是AI关键性的突破之一。”
LLM通过屏蔽句子中的下一个单词,然后尝试根据前面的内容猜测它是什么来进行学习。训练数据已经包含了答案,所以这种方法不需要任何人类标记,因此可以从互联网上抓取大量数据并将其输入算法。变换器还可以并行执行多个这样的训练游戏,这使它们能够更快的处理数据。
通过在如此庞大的数据量上进行训练,变换器可以产生极其复杂的人类语言模型——因此得名“大语言模型”。它们还可以分析和生成与人类生成的文本非常相似的复杂的长篇文本。不仅仅是语言,变换器还彻底改变了其他领域。同样的架构也可以同时在文本和图像数据上进行训练,由此产生了诸如Stable Diffusion和DALL-E这样的模型,它们可以从简单的文字描述中生成高清图像。
变换器在Google Deepmind的AlphaFold 2模型中也发挥了核心作用,该模型可以从氨基酸序列生成蛋白质结构。这种产生原始数据的能力,而不仅仅是分析现有数据,是这些模型被称为“生成式AI”的原因。
狭义AI与通用人工智能(AGI):有什么区别?
由于大语言模型能够执行的任务范围广泛,人们对它们感到兴奋。大多数机器学习系统被训练来解决特定问题——例如在视频流中检测人脸或将一种语言翻译成另一种语言。这些模型被称为“狭义AI”,因为它们只能处理它们被训练的特定任务。
大多数机器学习系统被训练来解决特定问题——例如在视频流中检测人脸或将一种语言翻译成另一种语言——并且达到了超人的水平,因为它们比人类更快、表现得更好。但是像ChatGPT这样的大语言模型代表了AI能力的一次重大变革,因为单一模型可以执行广泛的任务。它们可以回答关于多样化主题的问题、总结文件、进行语言翻译和编写代码。
这种将所学知识泛化以解决许多不同问题的能力,使得一些人推测大语言模型可能是通向AGI的一步,包括DeepMind科学家在去年发表的一篇论文中。AGI指的是一个假设的未来AI,能够掌握任何人类可以的认知任务,抽象的推理问题,并在没有特定训练的情况下适应新情况。
AI爱好者预测一旦实现了AGI,技术进步将迅速加速——一个被称为“奇点”的转折点,此后突破将以指数级实现。同时,人们也感受到一些风险的存在,从大规模的经济及劳动力市场破坏到AI可能发现新病原体或武器的潜力。
然而,关于大语言模型是否会成为AGI的前身,或者仅仅是AGI所需的更广泛的网络或AI架构生态系统中的一种架构,学界仍然存在争议。一些人表示,大语言模型距离复制人类的推理和认知能力还有很长的路要走。根据批评者的说法,这些模型只是记忆了大量信息,并通过给人一种深层次理解的错误印象的方式重新组合了它们;这意味着它们受到训练数据的限制,与其它狭义AI工具没有根本性的不同。
尽管如此,Hooker表示,大语言模型无疑代表了科学家们在AI发展方法上的重大转变。现在,前沿研究不再针对特定任务训练模型,而是采用这些预先训练的、通常有能力的模型,并使其适应特定的用例。这导致它们被称为“基础模型”。
“人们正在从只做一件事的非常专业的模型转向做所有事情的基础模型,”胡克补充道。“它们是一切建立的基础。”
AI在现实世界中是如何使用的?
像机器学习这样的技术无处不在。AI驱动的推荐算法决定了你在Netflix或YouTube上观看什么——而翻译模型则使得将一个网页从外语瞬间转换为你自己的语言成为可能。你的银行可能也使用AI模型来检测你账户上的任何异常活动——这可能代表了欺诈行为,监控摄像头和自动驾驶汽车使用计算机视觉模型从视频流中识别人和物体。
而生成式AI工具和服务也开始进入现实世界,超越了像ChatGPT这样的新奇聊天机器人。大多数主要的AI开发者现在都有一个聊天机器人,可以回答用户关于各种主题的问题,分析和总结文件,并进行语言翻译。这些模型也正在被集成到搜索引擎中——例如Gemini集成到Google搜索之中——公司还在构建AI驱动的数字助手,帮助程序员编写代码,如Github Copilot。它们甚至可以成为使用文字处理器或电子邮件客户端的用户提高生产力的工具。
聊天机器人风格的AI工具是最常见的生成式AI服务,尽管它们的表现令人印象深刻,但大语言模型仍然远非完美。它们对特定提示后应该跟随什么单词进行统计猜测。尽管它们经常产生表明理解的结果,但它们也可以自信的生成看似合理但实际上是错误的答案——这种现象被称为“幻觉”。
虽然生成式AI越来越普遍,但这些工具将在何处或如何证明最有用还远不清楚。Hooker表示,鉴于这项技术还很新,有必要谨慎对待它的快速推广速度。“某种东西既处于技术可能性的前沿,又被广泛部署,这是非常不寻常的,”她补充,“这带来了它自身的风险和挑战。”