专访 UCL 教授汪军：中国能不能出现像 DeepMind 这样的企业？| CCF-GAIR 2017

雷锋网

2017.07.1510:49

关注

雷锋网(公众号：雷锋网) AI 科技评论按：想必大家都对前段时间火遍学术圈的 BiCNet 并不陌生，这个 UCL 与阿里巴巴合作的多智能双向协作网络，可在星际争霸中研究多智能体间的协作学习。在今年由中国计算机学会（CCF）主办，雷锋网与香港中文大学（深圳）承办的第二届CCF-GAIR全球人工智能与机器人峰会上，我们荣幸地邀请到了伦敦大学学院（UCL）计算机系教授汪军博士做了主题演讲。

汪军教授在题为《A Society of AI Agents》的演讲中，从多智体群体的特征切入，介绍了多智体的强化学习特性。具体表现为：在同一环境下，不同的智体既可以单独处理各自的任务，又可以联合在一起处理优化一个主要的目标方程，而且会根据具体的情况会有不同的变化。此外，汪军教授还以多个例子阐述了强化学习与环境的关系。

演讲全文：UCL计算机系教授汪军：如何进行大规模多智体强化学习？| CCF-GAIR 2017

汪军教授告诉雷锋网 AI 科技评论，实际上他此前准备的是《Artificial Collective Intelligence》的演讲主题，但近期因为在多智能体领域有了一些新的研究和尝试，因此他在 CCF-GAIR 大会的演讲中所引用的两篇论文也是第一次在公开场合露面。其实他在演讲中想讲的东西还有很多，因此在演讲之后，雷锋网 AI 科技评论与汪军进行了一次对话，雷锋网整理如下：

目前学界少有人在多智能体上进行深度学习方法的研究，这是因为大家目前还只关注单个智能体的作用，还是说这个议题本身就非常难？

其实多智能体是一个研究领域，也有自成一体的会议，研究的人也很多。但目前将多智能体结合强化学习，特别是深度强化学习，目前还是比较新的一个话题。

首先，研究者要解决只有一个智能体的问题，比如说象棋、围棋，等这个问题解决之后，可能就会接着用深度学习去处理更多的智能体。你可以看到，这有一个自然的脉络在其中。所以今年就特别明显，有很多多智能体的问题采用了深度学习的方法去解决，包括 UC 伯克利的一个研究室，做了一个理解语言的研究。在一个给定的场景下，研究者让多智能体们自己去通讯、去交流，但不告诉彼此交流的内容，最终发现慢慢地，语言就有可能在其中产生。因此这个也非常有意思。

我们团队可能是从另一个角度出发，想象这些场景在生物学上有没有什么规律，比如有可能会出现 Leader，那么我们可以在这个过程中理解领袖是如何产生的，是不是有些智能体自己就会成为领袖。我们现在所理解的内容就是所谓的「grouping」，也就是在给定一些特定条件下，可能就会认为这些多智能体可以成为一个团队，这与人类最早最原始的状态其实是一样的。最早的时候人需要捕猎，出于安全的考虑可能会组成一个团队。所以我们通过深度学习的方式，可以学习到以前完全学习不到的东西，甚至对人类学可以了解。

更进一步地，我们是不是可以学习宗教是如何产生的？宗教到底是什么，因为每个人都可能是自私的，或者每个人都有自己的利益，如果有一个宗教把这些人约束起来，可能这个集团的利益可能会最大化。当然，我现在所说的只是一个假设，现在还没有人去研究这个，我们所做的研究也只是第一步。

您在演讲中也提到，目前很少有人研究超过 20 个智能体的协作，但您也提到了比如说像滴滴的调度问题，还有共享单车的问题。实际上 MSRA 的城市计算，或是滴滴研究院的调度系统都有类似的交通系统研究，但它是属于一个系统调动所有的个体，那么将行为个体作为智能体的意义在什么地方？

在多智能体的情况下，你有两种设置情况，一种情况是让每个人之间只优化自己的利益，利益之间虽然可能会有些联系，但是每次做决定的时候，双方不需要知道对方所做的决定。

还有一种是协作关系，在做决定之前需要相互获取一些信息，最后联合起来做一个决定。这两个情况是不一样的，如果你把它放到一个最特殊的情况，就像你刚才讲的，我有一个大系统，我把所有的多智能体全部一起优化，这时候呢这个多智能体其实就转化成了单智能体，你可以把它当作一个智能体，只不过它的这个输出太多了，每个都要输出一个结果。但这个计算量太大，可能有一百万个，如果每个都要去权衡决策的话，这是不现实的。所以一般来说会选择一种完全独立的，或者中间有双向通讯的方式。

那这样是不是也涉及到一个博弈问题？

对，博弈有两种，一个是啊就是我们所谓的零和博弈，就像下棋一样，你赢了我就输了，它是一个互相博弈的情况。那么还有一些协作的关系，比如我们俩的目标是一样的，那么会涉及到双方的贡献程度。

那么您在演讲中所说的生态系统的例子，其实是希望找到背后的一些生态学规律？这些理论性的内容能够如何被应用呢？

其实有两个层面。第一个是，我们想从科学上面理解它背后的规律，要满足我们的好奇心。比如说人工智能体在做出一个群体以后，是不是跟大自然的表现情况是一样的，如果不一样，有什么差别？如果一样，为什么？我们完全不会考虑它可能会有什么（应）用，主要还是满足我们的好奇心。

我们当时做环境动态变化研究的出发点在于，在玩游戏的时候，比如说玩王者荣耀，如果你玩游戏的水平比较弱，如果对手设计得太强了，你玩一下就觉得没意思了；如果你的水平很强，但这个游戏对手的难度又很弱，你玩着也没有意思。因此游戏难度的设计，本身也就是优化这个游戏本身的一个过程。

但游戏还是在一个虚拟环境下设计的，那么在实际情况和实际应用里，如何进行各种指标的量化？

主要有两点，一个是在有些情况下你可以自己设定，那么进行试错就可以了。如果是理论性更加的话，还有一种叫「Inverse Reinforce Learning」的方法，就是说反过来玩，我们有一些最优化的策略作为训练集，然后把它放回强化学习系统里去学习 reward ，然后用获得的 reward 再去解决新问题。

其实我看您的近期研究内容与 GAN 的联系非常紧密，包括 SeqGAN、IRGAN 等。你觉得目前 GAN 是一个比较有效的方法吗？还是说，与 GAN 的结合会是未来的一个趋势？

我们的 SeqGAN 出来之后，现在是目前唯一一个可以用在离散数据上的有效方法，所以今年你会看到有很多论文用 SeqGAN 去解决文本问题，所以我们那个文章的引用就变得非常高。

有研究者采用的是另外一个方法，那个方法理论很好，但是实际数据的表现还不是太好。所以我们现在也在尝试，是不是要在一些标准的数据集上再好好地把效果提上去。

那如果引申到您非常擅长的推荐系统与计算化广告领域，您觉得应该如何用深度学习结合起来？

比如像 GAN 的话，我觉得现在就火得有点过了，它在解决某些问题可能还是够呛。（比如说呢？）比如说像离散数据就比较难解决，我们也只是提出了一个方法，具体效果好坏大家也都还在尝试。此外，在优化的时候不一定效果很好，可能要试很多次，不像现在的 Deep Learning。

以 IRGAN 为例，这是您与学术界进行合作的一个成果；而像 BiCNet 这样的多智能体协作系统则是与工业界合作联系的，那么在这两个研究中，您感受到最大的不同之处在哪里？

公司具有很强的工程性，而且有数据，比如说有些论文如果是与工业界合作，你可以进行在线测试，包括系统上的 A/B Testing，但在学校不可能让几个博士生去做这个事情。博士生必须在这几年内找到一个题目，直接去做科学的研究。

除了与双界合作外，我了解到您也在北京创办了一个公司，做个性化推荐的业务，那么为何不选择直接创业，学术界对您的吸引力可能在什么地方？

不论是在学校还是在产业界，大家的出发点都是想解决一些技术问题。我的兴趣还是一直在学校，创立公司的目的也是希望通过这样的方式实现技术转化。像计算化广告或是推荐系统，如果没有一个公司作为载体，可能我就不能拿到用户的数据，也不能做在线测试。

我觉得高校对我的吸引力在于解决一些最基础的问题，在企业界可能不太容易能实现这个状态，公司也有产品化的需求。

那么像阿里与高校合作研究星际争霸，实际上是一个比较特殊的情况？因为它并不是直接以产品化为导向的？

是的，阿里做这个事情的确是一个比较特例的情况，而像 DeepMind 这样的情况就更少了。DeepMind 给自己的定位是纯研究机构，但实现的却是商业化的运作。实际上我认为，母公司提供资金，让基础研究机构以商业化模式去管理，做一些比较前沿的研究，它的回报率会更高。我一直想强调的一点是，为什么中国不能出现像 DeepMind、Magic Pony 这样的公司？

如果是 VC 比较急功近利，那可能就做不了，第一年投钱，第二年就想把产品做出来，这对基础研究来说是不现实的。但如果把研究放回高校，高校的机制又存在着不足，也就是「一个萝卜一个坑」。什么意思呢？一个博士生，他要在四年里独立地完成一个项目。当然我们有些机制可以让学生们一起合作，但还是非常零散的状态。不可能在高校里找 10 个最牛的学生去把星际这个问题彻底搞定，只有在工业界中雇 10 个最牛的人去做这个事情，这其中有工程师、有程序员、有系统维护，这样才能产生一个 AlphaGo。

现在国内很多企业也在建研究院，是不是也在想向这种方向靠拢？

对，但他们的研究院都是非常功利性的，都是研究院，但是都不研究。我觉得要解决这个问题可能有两种渠道，一个是大公司突然就觉悟了，要做一个全新的商业化运作的纯研究机构；另一个是创业公司自己带头做基础研究，如果把 AlphaGo 这样的研究做成了，我相信对 VC 的价值也很高。比如星际争霸这个事情，或者说王者荣耀，如果能做到能与一般水平或者水平稍微好点的玩家对抗，那它的价值就非常大了。

后记：汪军教授的微信签名是「with a curious mind」，问他这是不是一个对自己的评价，他说，做学术就是这么回事，需要永远保持一颗好奇心。此外，这句签名更多地也表达了他对生活的一种态度。汪军教授表示，在回学校后打算继续安安静静踏踏实实再做几篇文章。「AI 可能今年火，那明年可能就不火了，那么你是要改行干别的吗？肯定不是，你还得继续往下走。」