新浪科技

Yoshua Bengio：注意力是“有意识”AI的核心要素

leiphone_com

原创作者 2020.05.0616:55

关注

原标题：Yoshua Bengio：注意力是“有意识”AI的核心要素

作者 | 蒋宝尚

注意力机制或许是未来机器学习的核心要素。

在本周举办的ICLR 2020 上，图灵奖获得者Yoshua Bengio 在其特邀报告中着重强调了这一点。

目前注意力机制已是深度学习里的大杀器，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都很容易遇到注意力模型的身影。

借鉴于人类的注意力机制，关注注意焦点，注意力机制是作为一种通用的思想出现的。

Bengio在其报告《与意识相关的深度学习先验》中提到，丹尼尔·卡尼曼的书《思考，快与慢》中指出人的认知系统有两类，一类是无意识（快系统）的，关键词是直觉、非语言、习惯；第二类是有意识的（慢系统），关键词是语言性、算法性，推理和计划。

Bengio指出，第二类认知系统允许对语义概念进行操纵、重组，这对于当前的人工智能和机器学习算法来说是一个非常渴望的特性。

但目前的机器学习方法还远没有从无意识发展到全意识，但是Bengio相信从“无”到“有”的转变完全可能，而注意力则是转变过程的核心要素之一。

在报告中，Bengio提到，注意力机制每次都关注其中某几个概念并进行计算，因为意识先验及其相关的假设中，许多高层次的依赖关系可以被一个稀疏因子图近似地捕捉到。

最后，报告介绍了元学习，这种先验意识和代理视角下的表征学习，会更加有助于以新颖的方式，支持强大的合成泛化形式。

AI科技评论对演讲内容做了有删改的翻译整理，供大家参考：

Bengio：

此次报告的主题是深度学习的未来发展方向，特别是深度学习与意识的关系。其实神经科学对意识内容的研究在近几十年里已经有了很大的进展。

对于意识，丹尼尔·卡尼曼在《思考，快与慢》这本书中，对许多常见的现象如直觉、错觉、偏见等给出了科学解释，并介绍了“系统1，系统2”，描述了大脑的两种思维模式。

对于[系统1]，可以想象这样的场景：在一条你已经非常清楚路况的公路上开汽车，这时候，你并没有把所有的注意力都放在驾驶上，如果有人和你进行谈话，你也可以轻松回应。

相反，[系统2]的场景描述就是：如果你在一个新的地方开车，这时候别人和你对话，你会非常烦，因为你要把精力都放在驾驶上。

所以「系统1」的任务涉及到直觉知识，它能够很快执行，在你大脑中是不知不觉一步一步发生的。「系统1」通常涉及隐性知识，很难用语言解释，但是人工神经网络却擅长存储隐性知识，这也是现在深度学习表现非常好的原因。

而「系统2」的任务更多的需要以一种有意识的方式，按照顺序并能够用语言来描述，这也是所谓的显性知识，涉及到了推理和规划的算法。

所以「系统2」在做任务执行的时候可能非常慢，但里面的涉及的关键确是我们想给深度学习进一步扩展的功能。

简单而言，「系统2」任务的一个有趣的特性是允许操纵高级语义概念，这些概念可以在新的情况下使用，并与分布外的泛化相联系，而未来的深度学习需要的正是种“操纵”功能。

认知角度来说，我们大脑中关于世界的知识认知可以分为两类：隐性知识和显性知识。能够语言化的其实是一种特殊的知识，我们应该试着去描述和刻画，这样才能把它放在模型的训练框架中。而且，这些知识是围绕着我们可以用语言命名的概念来组织的。因此，这些研究和建立更好的自然语言理解之间有很强的联系。

上面是神经科学中关于意识的几个理论的核心，尤其是全局工作空间理论，大多数是由Baars提出，涉及了意识过程的瓶颈问题。

当前通常认为信息是用注意力来选择的，即从多种可能的方式和输入的部分中选择信息，然后将选择的信息广播到大脑的其他部分，并存储在短期记忆中，以适应短期内的感知和行动。

这里有一个有趣的事情要注意，如果我们认为大脑的大脑皮层是一个大的模拟引擎，那么就要假设一次只能运行一次“全”模拟，区别于每一步只涉及几个抽象的概念的“电影模式”。

2017年的时候，我在论文中曾经提到过意识先验，如果用因果图来表示的话，可以把每个因子像句子一样看成是涉及几个变量的联合分布。

高级语言会有一个惊人的特性，那就是我可以在一句话中做出隐蔽性的预测。例如，“如果我扔一个球，这个球会掉在地上”

另外还可以做一个只涉及少数几个概念的强有力的预测，不同于通常的边际独立假设，我们假设高级变量是独立的。

这些都与我刚才谈到的注意力的概念有关，因为当你想要对这样一个稀疏的图表进行推理时，一个合理的方法是一次只关注一个或几个因素。

关于事物在分布上可能如何变化的假设也非常重要，因为它能够提供了一些“意识处理”的强大力量。

想象这样一个画面：有一个原始数据，它有一个非常复杂的联合分布，我们将用两个层次来表示它。然后将四分之一的原始数据映射到抽象空间，根据这个假设，当分布发生变化时会发生什么？

其实，在抽象空间中，更改是局部化的，可能只需要修改一个变量、一个条件或一个因素。因此，学习如何适应修改后的分布变得容易得多，如果以正确的方式表示信息，就可以快速传输。

最后，提一下我想提的工作，一篇叫做《Recurrent Independent Mechanisms》的论文里面重新定义了一个新的recurrent neural net架构，在这个架构中，把recurrent net 分解成更小的模块，在每个模块里面，它是完全连接在一起的，并不是一个同质的网络。模块之间，有一个注意力机制，当然，你也可以认为这是意识的集中地。

加载中...