专访田渊栋：AlphaGo之后，研究智能围棋还有什么意义？_机器人_中模头条

　　近日，田渊栋受地平线曾经在Facebook的同事邀请，赴中国做了一期大牛讲堂，分享了关于游戏和增强学习等的话题。分享会后，AI科技评论采访了田渊栋，就他为什么离开Google无人驾驶团队去Facebook人工智能研究院，现在正在做的工作，如何平衡工作中理论和应用的比率，怎么看待绝艺和AlphaGo的棋艺水平，怎么看待智能围棋的实用价值，接受了AI科技评论的采访。以下是采访正文。

　　1. AlphaGo目前是世界第一的围棋选手，在此之后，研究智能围棋还有什么意义？

　　我觉得围棋是很有意思的游戏，AlphaGo虽然把它做出来了。但很多东西的做法和人是不一样的。人在学围棋的时候有很多概念，按照概念做判断，但是机器解决他还是比较暴力的。

　　一方面，你可以说人用概念来做推理局限了他的计算能力，体现出人本身有一个高度抽象的能力，就是用非常非常局限的计算能力，能达到那么强的棋力。而AlphaGo就是用非常多的计算能力去弥补这些不足，所以恰恰是互补的，我相信还是有意义的。

　　另一方面，联系到后面那个问题（目前你的研究团队，对围棋AI的研究进展到何种地步？相比AlphaGo如何。），我们这边在开源之后就先放在那儿了，可能等到以后我们有新想法再拿过来试一试。我们这边是七八十人的研究机构，要让我们花二十人做围棋，这个是不可能的。我们这边都是很有名的研究员，这些研究员每个人都有自己的方向，像计算机视觉和自然语言处理等等，不可能把自己的方向放弃掉来专门（搞围棋）。

　　最后，从本质上来说，我们的风格跟其它公司不一样。我们研究员的一个目标是说在大家不做这个东西的时候，在比较冷门或者大家不相信它能做得更好的时候去做它，证明这条路能走通。比如说我们在做DarkForest的时候，围棋还是很冷门的方向，大家都不认为围棋可以做出来。我们的文章比AlphaGo早了三个月出来，证明这个东西确实有效果，而且能提高挺多的，这就是我们的贡献。我之前在采访里面说过，好的研究就是“于无声处听惊雷”。

　　像星际这样的游戏，大家都不知道怎么做，研究员们的任务就是要想办法找到一些突破口，这个突破口可能没有人想到，或者是没有人觉得能做成，我们的目标是在这儿。我回到第一个问题，就是说智能围棋之后还有什么意义，就是我刚才说的，如果有人愿意想要做下去的话，就看能不能自动从里面学出一些概念来，学出一些有意思的东西，比如说人有大局观或者是大势，或者是各种下棋时候的概念，概念是不是能从这里面自动学出来。像这些，目前大家都没什么办法。

　　（你说大局观吗？）

　　对，像这样的东西其实对于我们如何理解人的思维方式是更重要的。职业棋手是很厉害的，人脑的神经传导是毫秒级的，这点时间机器可以干很多事情，但人就是用这么慢的处理速度达到了这么强的水平。

　　2. 绝艺和AlphaGo有差距么，差距是多少，是什么造成了这种差距？

　　这个我稍微看了一下，我觉得绝艺肯定是比Zen要强挺多，200手不到就让Zen认输了。我之前看新闻是它对职业棋手可以战胜80%甚至更高，所以我相信它已经是做得非常好了，我相信它肯定是超过了或者是相当于AlphaGo之前Paper（AI科技评论注：2016 年 1 月 28 日，Deepmind 公司在 Nature 杂志发表论文 Mastering the game of Go with deep neural networks and tree search，介绍了 AlphaGo 程序的细节。）的水平，但是它跟现在的Master相比，可能还是有差距。

　　3. 跟AlphaGo 3月份比赛的水平比如何？

　　跟3月份（对战李世石）的时候这个我不好说，我只能说和Nature那篇论文相比做得好，当然了跟Master比是有差距的，现在Master所有对战是全部都是赢的，没有输的，胜率是100%，而且都是赢的莫名其妙。Master赢了你，你都不知道什么地方出错了，好像下得挺好的，然后就输掉了。所以就是已经到了不知道错哪儿的程度了。我相信他们应该用别的方法做训练的，而不是单纯拓展之前的文章。像我是听说他们最近把训练好的值网络单独拿出来，根据它再从头训练一个策略网络。我觉得这样做的好处是会发现一些看起来很怪但其实是好棋的招法，毕竟人类千百年下棋的师承形成了思维定式，有些棋在任何时候都不会走，所以按照人类棋谱训练出来的策略网络终究会有局限性；而用值网络作为指导，从头训练一个策略网络的话，确实会发现很多新招。

　　（AlphaGo用其他的方法迭代的？）

　　我相信他们也用了别的办法，但是细节我也不知道，因为我最近也没有做，所以我也不知道他们用什么样的办法，我觉得这方面需要创新。

　　4. 绝艺这次是跟电脑围棋比赛，跟下一次的真人比赛区别在哪？

　　电脑围棋我们之前也参加过，就是大家坐着，连上之后让计算机自己下，下到什么地方就说我输了你输了，然后就结束了，有可能说我们看看剩下好像不行了，但是机器误判，就让人去认输。基本上是这样的过程。

　　（那我可以这样理解吗？跟电脑围棋比赛的是两个既定程序的对战，比如说电脑围棋绝艺跟真人，比如柯洁对战的时候，是变动性更大一点，是吗？）

　　我相信是的，因为电脑围棋至少在之前都是有些明显的风格，比如说有些喜欢在角上和你拼，不愿意去外面抢大场。人可能能看出来这个风格，就会击败它，特别是水平不是很高的两个AI下的话，很明显能看出问题，比如我们DarkForest就有死活的问题，我们自己会说，你看这里下得不对，肯定是这里下错了，这个地方他可能判断有问题，以为这块棋是活的，其实是死的，所以会有各种各样的问题。当然了，如果是达到绝艺或者是AlphaGo这样的水平的话，我肯定是看不出来，我需要计算机辅助帮我下到后面才能看到，但是我相信职业棋手还是能看出来，但Master我不知道，我不是特别清楚。

　　5. 以DarkForest为例，除了围棋，这种完全信息博弈的游戏智慧要应用在其他领域需要解决哪些问题？

　　我觉得现在这个系统是针对于某个问题做特别优化，我之前在 talk里也说了，那么多方法，要依照不同的游戏用不同的方法，没有那么通用的。比如说你在国际象棋上用蒙特卡洛树搜索肯定是不行的，你可能漏搜了某一条特别重要的分支，然后导致一个杀王的走棋序列没有看到，这是非常有可能的。所以整个AlphaGo是一个大的系统工程和框架结构，它需要有几个人每天花时间在上面，还得每天不停地调啊调。所以说，现在所谓的 “人工智能” 还是比较弱的，还是需要人去监督，然后把它做出来。

　　（如果是要针对某一个特定领域呢？）

　　就是我刚才说的，你先要对这个领域有了解，然后去设计。比如说围棋和国际象棋就不一样，国际象棋每步的可能性比较少，对局面的判断相对容易，因为这个原因，你要换一个方法做，而不是用原来的方法做。所以对于方法的选择，其实是完全依赖于这个问题本身的，所以这个是需要大量的人工智能相关知识才能做出来的。

　　6. 你刚才讲PPT的时候，讲到你们的围棋理论可以应用在游戏方面，还有其它现实生活中的应用场景吗？

　　一个问题就是说像完全信息博弈游戏，你知道你下完这步后局面会变成什么样子，你心里非常非常清楚。但到了现实世界的时候，有时候并不那么清楚，没有一个现实世界给你玩，你做完决定之后你得对这个决定的后果负责，所以对这个世界在你下完决定之后变成什么样子，你要有一个大概的估计。

　　所以你在现实世界做规划的时候，其实需要一个前向模型（forward model）, 就是你对将来会发生什么事情的一个预计，前向模型是一种规划，是对将来会发生什么样事情的预计。比如说你下完这步之后，可能整个情况变成什么样子，之后你再做下一步的计划。所以这个其实是很大的问题，是游戏和现实生活中是不同的。

　　7. 能详细介绍一下前向模型？

　　前向模型就是你要对现实世界的运行规律做一个模型。比如说你这个房子过了几年会变成什么样子，比如说这朵花过几年会变成什么样子。你当然不可能能预测所有细节，要找到关键性的方面，才能让你的蒙特卡罗树之类的搜索产生效果。比如一个国家30年后会怎么样，和现在这束花是不是会枯萎没什么关系，但可能和大家的收入统计有关系。所以关键就是怎么对现实世界来做出抽象的建模。

　　8. 我们看到绝艺那边，腾讯的副总裁姚星说他们可以把其 “精准决策” 能力用在无人驾驶，量化金融，辅助医疗等，这个是不是说得太早了？

　　长远来说，通过在绝艺上投入的人力和物力，这些工程师的思考本身可以变成经验。比如说它在人工智能上通过对于绝艺的提高，他知道了蒙特卡罗树的适用范围，知道了增强学习算法的适用范围，对这些算法有一个切身的理解。这样之后，如果去从事其它方向的AI，就更加得心应手。

　　我不知道“绝艺”是怎么做的，如果他们用的是Alphago相似的（原理）的话，要用到其他领域上，就不是特别容易。比如说像辅助医疗，可能更多的是去识别图片，去怎么样去找到病变组织，这个其实更多的是图像识别的问题，而不是说关于决策的问题。所以这个其实关系不是特别大，但是不好说，说不定他们有方法。

　　9. 李开复之前说 “AlphaGo 其实做了相当多的围棋领域的优化，除了系统调整整合之外，里面甚至还有人工设定和调节的一些参数，因此还不能算是一个通用技术平台，不是一个工程师经过调动API就可以使用的，而且还距离比较远。”假如要应用在其他领域，以金融为例，这套系统大概需要改动或调整多少？

　　这个我也不知道多少，感觉是完全不一样的。你说金融领域，关键是你想要解决什么问题，你想预测股票价格，还是想要预测什么？

　　（比如信用体系一般比较多。）

　　根据不同的具体问题可能又是完全不一样的方法，所以你没有办法说把这套框架用在某一个很大的领域，因为这个领域有很多问题，你得列出来，对应每个问题去想这个方法能不能用，所以我觉得这个问题其实很难回答。

　　（这个是要靠AI加某个垂直应用场景的实践，是吧？）

　　嗯是的。目前为止现在还不存在一个强人工智能，像人一样什么都可以学会，现在没有这样的东西，所以现在对应具体的问题我要具体分析，根据这个问题再分析，决定用什么样的模型去做它比较好，所以现在是处于这样的状态。所以说机器还不能自己决定用什么模型，还是需要人的输入。

　　10. 你除了围棋还有其他的研究领域吗？

　　我们现在主要在做增强学习在游戏上的应用。比如说我在Talk里面讲了围棋和最近在第一人称射击游戏上的应用。另外我也做理论，比如说对于二层神经网络做一些收敛性分析，像这个非凸优化问题，要怎么分析才是好的。

　　(现在最主要的哪一部分是重点？是理论还是偏应用。)

　　重点当然是偏应用。理论这个是我以前读博的方向，也是我个人爱好，我自己比较喜欢，觉得深度学习之所以效果好，肯定有其背后的原因，这个是很重要的问题，需要人去理解，不能放弃。当然纯做理论风险比较大，这个大家都知道。

　　11. 其实之前看你知乎的文章，好像是讲过目前深度学习在复杂推理的一些，还有今天的分享里面你也讲了有一些进展和挑战，在这么多挑战里面，最大的一个挑战是什么？

　　其实有很多点是挺关键的，没有特别重要的，说我们就差这个点了，不是这样的。其中一个就是你怎么样去像人那样有高层的建模能力，人可能对一件事情会有比较整体的把握。什么是战略上的。什么是战术上的，什么是具体执行上的。人在处理问题时很自然就会有这样层次式的思考方式。目前为止很多人想做这个。虽然你可以设计很多模型，但没有看到特别稳定的，很多模型听起来很好，但是训练的时候，效果会有问题，会有很多实际的问题，没办法做到跟你想象中的那么好，这是一个问题。另外比如说，如何让机器能在外界监督信号极度稀缺的情况下学习，如何做无监督学习，如何把传统符号推理和深度学习结合起来。

　　12. 你刚才说的目前研究的领域来说，能透露一下你最近一段时间比较重要的进展？

　　我觉得，理论上来说有一些小小的进展，我之前做了一篇文章研究了两层神经网络的动力学系统，神经网络它是怎么收敛的，需要什么条件。像这个就是更偏研究类型的。实践上来说，有一些东西我们在做，不方便说。另外就是多看文章，现在还处在一个积累的过程，多看点儿文章，多理解一些别人做的工作，就会有一些更多的想法。

　　下一步工作也是围绕上面说的那些，继续往下进行？

　　对。

　　13. 你目前负责项目和研究领域在整个Facebook公司的架构里面，是处于一个什么样的位置，起什么样的作用？

　　其实现在是这样的，我们组是比较偏研究的，所以我们组的东西不一定要跟产品组有直接联系。我们做的东西都会比较前沿一点，不一定会有直接的应用，这是我们这个组很好的地方。我们公司也赋予这样的自由度。你想，你做的东西完全跟产品挂钩，每隔几个月就要求汇报进展，那这样的话最后的结果就是大家只找最容易做的那些方向，在原来的系统上修修补补。这样大家就不会愿意去想更多的东西了。

　　（像您刚才说的做研究，需要把一个现在还冷门的东西钻进去。）

　　对，比如说训练围棋，当时没有多少人知道这个东西。做研究最重要的是能够在那么多方向上，你能看到一个方向是对的，愿意花时间把它做出来，证明它是对的，这个是很重要的。

　　（之前看过您那篇在谷歌和Facebook的一个比较，在谷歌是没有这种自由度的？）

　　不能这么说。因为在谷歌时我在无人车组，这是个产品组，决定了必须要有一个非常清楚的脉络和将来的走向。我当时其实也是想做一些开放性的东西，但是觉得环境也不是特别适合，所以就走了，这是原因之一，我并不是说这个组不好，这个组挺好的，确实是因为我个人的志向和组里的发展方向不一致，所以我就走了。

　　14. 你其实特别喜欢写博客和杂文，甚至我还看到有古文，我想问写作不管是中文的还是英文的，对于你研究来说有什么帮助？

　　这个我觉得是一个思考的方式，东西要写下来之后你才知道什么地方出问题了，一个典型的例子就是做数学证明嘛，你觉得好像是对的，但是你写下来才能证明，很有可能一落笔就发现错误了，这个是司空见惯的事情。

　　（但是其实写博客和写论文还是两种东西嘛，因为写博客可能不会写得那么深。）

　　论文当然抠得细得多，但大方向都是一样的。写博客的时候一样要有逻辑，很多话当时想的是这样，但是写下来发现这两句话不连贯，或者是逻辑不通，所以你在整理的过程中其实就是在整理你的思路，这个是挺重要的。

　　15. 经常看见你说表达的重要性，它在你不管是做研究还是之前在谷歌做产品的时候，它扮演了一个什么样的角色？

　　这个对研究来说非常重要，研究者的一部分工作是要把自己的成果公诸于世。要以清楚的语言概括在做什么，所以这个其实是我作为这个职位的要求之一，所以这个重要性就不用多谈了。

　　（必须要把现在这个事情给别人说清楚，得到别人的认可？）

　　对，你要跟别人说清楚，当然公司里面还好，但你在学校里边的时候，你在团队里面作为技术带头人，必须出去跟其他公司谈，或者说跟上层说我需要资源做这样的事情。这样表达能力就非常重要了，如果你没有办法表达清楚你想要做什么的话，别人不一定能相信你，也不会给你各种资源。另外比如说你遇到的人才，觉得你做的东西他没听懂，或者是不知道你在做什么，他也不会愿意跟你一起共事。作为一个研究员来说，或者是任何在研究这条路上愿意走的后辈人来说，这个很重要。

　　16. 对于AI领域的后进者们，比如说学生、创业者或者是研究者们来说，你作为一个过来人，当然还在继续往前走，对他们有什么建议？

　　第一点，我不是什么过来人，我还要往前走，我也觉得我也只是很多方向刚开始的人，我也不觉得我是一个非常资深的研究员。你之前说我是高级研究员，我们组没有高级研究员这个头衔。

　　（你现在在Facebook的头衔是什么？）

　　头衔就是研究科学家，其实就是研究员。我也不觉得我自己做得有多好，只能说很多事情尽力了。如果你要翻一下我两三年前的文章，我之前是做非凸优化在图像扭曲上的理论分析的，很荣幸地拿了马尔奖提名。我都不是做这方面（深度学习）的，我也不是做强化学习的，这些方向都是我最近觉得很有意思，然后自己学并且尝试做的。所以从这方面来说，我对目前我的工作觉得还行，想想只有一两年时间，会有这样的知名度和曝光率，这已经是出乎我的意料了。但是不管怎么样，曝光率再高，我觉得我自己还是要往前走的，我有很多东西不懂的，前面的路还很长的。所以要说对于其他人的建议，我觉得是就静下心来做事情，文章该看的要看，该学的要学，程序该写的要写，该调通的调通，一步一步往前走。

　　（就是把眼前的事情做好？）

　　对。当然方向还要看清楚的。做为一个研究者，要自己看文章定方向，不能人云亦云，这个是身为科研人员最重要的特质。然后做自己想做的事情，重要的就是要做自己想做的事，并且花时间在上面。不要说今天公司有很多钱，我就去了，这样的话对将来的发展不是特别好的，希望大家能找到自己想做的方向，主要是这一点。还有就是珍惜时间吧，大家的时间都是很宝贵的，如果愿意做一些事情，就早点行动，把事情很快地做好。另外要不断地提高自己。

　　小结：

　　AI科技评论在采访田渊栋的时候，

　　在问到DarkForest现在的进展时，他表示 “我们这边其实目前还没有继续做，在开源之后就先放在那儿了。”。

　　在说道人工智能有什么意义的时候，他表示“就是我刚才说的，如果你继续做下去的话，我们想能不能自动从这里面学出一些概念来，学出一些有意思的东西……像这样的东西其实对于我们如何理解人的思维方式是更重要的。”

　　在问道你现在在Facebook的头衔是什么时，他表示我的“头衔就是研究科学家，其实就是研究员。”

　　类似这样的风格的回答很多很多，给近在迟尺的AI科技评论展现了一个直白坦率，严格待己，谦虚待学的生动形象。这跟我们采访AI业界公司大佬时他们觉得他们能解决这个问题，他们没遇到什么困难，他们即将所向披靡的那一面然不同，眼前的这个年轻科学家体现的是学界人士低调，谨慎，求是的另一面。但值得一提的事，AI科技评论看到那张谦逊却带了一点点桀骜不驯的脸的背后，的是一个对自己有极高要求，对理想有极高追求的，不愿意人云亦云，却希望真的在人工智能领域有所作为的科学家的心。在孤独和庸俗，在跟着心走和大流之间，他选择了孤独和跟着心走。

• 2024世界机器人大会将于8月份在北京召开	• 工业机器人的驱动系统分类及特点
• 6种工业机器人主体结构的基本形式，你认识几种	• 机器人控制系统功能及构成详解
• 工业机器人最重要的7个参数	• 中国“制造之美”颁奖，仙工智能（SEER）再获两
• 移动机器人定位技术—激光SLAM	• 最新两项关于机器人行业国家推荐标准公布
• 庞大的中国汽车工业，正在培育哪些本土工业机器	• 斯坦德机器人：移动机器人的异同

斯坦德机器人：移动机	崛起的中国之星，配天
人机协作时代，激光导	斯坦德：大型汽配生产