院士张钹：AI奇迹短期难再现深度学习技术潜力已近天花板

图片来源：图虫创意

在Alphago与韩国围棋选手李世石对战获胜三年过后，一些迹象逐渐显现，张钹院士认为到了一个合适的时点，并接受了此次的专访。

张钹，计算机科学与技术专家，俄罗斯自然科学院外籍院士、中国科学院院士，清华大学教授、博士生导师，现任清华大学人工智能研究院院长。

深度学习目前人工智能最受关注的领域，但并不是人工智能研究的全部。张钹认为尽管产业层面还有空间，但目前基于深度学习的人工智能在技术上已经触及天花板，此前由这一技术路线带来的“奇迹”在Alphago获胜后未再出现，而且估计未来也很难继续大量出现。技术改良很难彻底解决目前阶段人工智能的根本性缺陷，而这些缺陷决定了其应用的空间被局限在特定的领域——大部分都集中在图像识别、语音识别两方面。

同时，在张钹看来，目前全世界的企业界和部分学界对于深度学习技术的判断过于乐观，人工智能迫切需要推动到新的阶段，而这注定将会是一个漫长的过程，有赖于与数学、脑科学等结合实现底层理论的突破。

作为中国少有的经历了两个人工智能技术阶段的研究者，张钹在过去数年鲜少接受收集，其中一个原因在于他对目前人工智能技术发展现状的估计持有部分不同看法，在时机未到之时，张钹谨慎的认为这些看法并不方便通过大众媒体进行传播，即使传播也很难获得认同。

“现在很多方面大家看的比较清楚，已露出苗头来了，我现在也接触到很多企业，找我谈这个问题，说明企业在第一线已经发现了很多问题，就想找个机会稍微说说。”张钹对经济观察报表示。

一、“奇迹并没有发生，按照我的估计，也不会继续大量发生”

人工智能在最近三年时间中受到的关注很大程度来自于其在围棋领域超越人类的“奇迹”，人工智能一次又一次的证明了人类“围棋智慧”优越的脆弱性。

容易被忽略的是，尽管围棋复杂多变，但是与牌类游戏相较，围棋的规则简单，信息完全且确定这恰恰是目前阶段人工智能所擅长的。

在张钹看来，尽管此前数年，人工智能在语音识别、图像识别、围棋三个领域显现了“奇迹”，但此后，这个“奇迹”再未在其他领域出现，其技术应用的边界和条件已经逐渐清晰。

经济观察报：您是如何估计和评价目前人工智能发展的现状？

张钹：这一轮人工智能热潮是本世纪初兴起的。首先是出现在学术界。学术界过去对人工智能是冷遇的，但是多层神经网络的出现带来了一些改变，神经网络的理论在上世纪50年代就有了，但是一直处于浅层的应用状态，人们没有想到多层会带来什么新的变化。

真正引起大家注意的就是2012年斯坦福的实验（注：2012年谷歌和斯坦福利用多层神经网络和大量数据进行图像识别的实验），过去实验的图像样本数最多是“万”这个级别，斯坦福用了1000万，用多层神经网络来做，结果发现在人脸、人体、猫脸三个图像类别中，这个模型的识别率大概有7%-10%的提高。

这给大家非常大的震动，因为通常识别率要提高1%要做好多努力，现在只是把层数增加了，竟然发生两大变化，一个是识别率提高这么多；第二个是能处理这么大数据。这两个变化给大家非常大的鼓舞，何况在2012年之前，人工智能没有解决过实际问题。

经济观察报：这种突破的原因是什么？

张钹：现在分析下来是三个原因，大家也都非常清楚了，一个大数据、一个是计算能力、一个是算法。认识到之后，一夜之间业内业外对深度学习都非常震动，然后就发生了三件历史性的事件。

第一件事是2015年12月，微软通过152层的深度网络，将图像识别错误率降至3.57%，低于人类的误识率5.1%；第二件事，2016年微软做的语音识别，其词错率5.9%，和专业速记员水平一样；第三件事：Alphago打败韩国围棋选手李世石。

通过人工智能，利用深度学习、大数据这两个工具，在一定条件下、一定领域内竟然能够超过人类，这三件事情给大家极大的鼓舞。

特别是对于业外的人，都认为我只要掌握了大数据，利用深度学习说不定还能搞出奇迹来，于是大家做了很多很多预测，比如在多短时间内计算机会在什么事情上能超过人。

但实际上，在这个之后，奇迹并没有发生，按照我的估计，今后也不会大量发生。准确一点说，今后或许会在个别领域取得进展，但是不会像之前预计的那样全面开花。特别是中国市场乐观的认为“中国市场大、数据多，运用又不受限制，所以将来奇迹一定会发生在中国”。

结果很多企业在做的时候发现，不是那么回事。从目前的情况来看效果最好的事情还是这两件：图像识别、语音识别。我看了一下，中国人工智能领域20个独角兽30个准独角兽企业，近80%都跟图像识别或者语音识别有关系。

经济观察报：为什么会出现这样的情况？或者说在这么长时间后，我们对人工智能目前能做什么有一个清晰的认识了吗？

张钹：人工智能在围棋上战胜人类后产生了这种恐慌，“大师才能做的事，人工智能居然能做，我的工作这么平凡，肯定会被机器所替代”。这里需要考虑一下它的局限性，我一直在各种各样的会上谈到不要过于乐观。

人工智能能做的那三件事（语音识别、图像识别、围棋）是因为它满足了五个条件，就是说只要满足了这五个条件，计算机就能做好，只要有任何一个或者多个条件不满足，计算机做起来就困难了。

第一个是必须具备充足的数据，充足不仅仅是说数量大，还要多样性，不能残缺等。

第二个是确定性。

第三个是最重要的，需要完全的信息，围棋就是完全信息博弈，牌类是不完全信息博弈，围棋虽然复杂，但本质上只需要计算速度快，不要靠什么智能，可是在日常生活中，我们所有的决策都是在不完全信息下做的。

第四个是静态，包括按确定性的规律演化，就是可预测性问题，在复杂路况下的自动驾驶就不满足这一条；实际上它既不满足确定性，也不满足完全信息。

第五个就是特定领域，如果领域太宽他做不了。单任务，即下棋的人工智能软件就是下棋，做不了别的。

经济观察报：就是说在满足这五个条件的前提下，目前的人工智能是胜任部分工作的？

张钹：如果你的工作符合这五个条件，绝对会被计算机替代，符合这五个条件的工作特点很明显，就是四个字“照章办事”，不需要灵活性，比如出纳员、收银员。如果你的工作富有灵活性和创造性，计算机绝对不可能完全代替，当然部分代替是可能的，因为其中肯定也有一些简单和重复性的内容。如果认识到这一条就会认识到人工智能仍处于发展阶段的初期。不是像有些人估计的那样“人工智能技术已经完全成熟，而进入发展应用的阶段”。

二、“深度学习技术，从应用角度已经接近天花板了”

人工智能在本世纪第二个十年的活跃得益于深度学习领域的突破，深度学习搭建在神经网络之上，而神经网络的概念则脱胎于上世纪50年代科研人员对人类脑神经系统的研究和模拟。

近三十年来数学领域，特别是概率统计理论的突破为多层神经网络的落地提供了基础——它们为多层神经网络和海量数据处理提供了有效的数学工具，但与此同时，“黑盒”学习法也成为深度学习的缺陷之一：即使人工智能能给出正确的选择，但是人们却并不知道它根据什么给出这个答案，人们无法像理解彼此一样去理解这个新的智能。

图灵奖得主朱迪亚·珀尔指出：尽管深度学习算法具有大脑的灵感，但它们也可以算作另一种强大的数据分析工具，是“曲线的拟合”。诺贝尔经济学奖得主托马斯·萨金特则认为人工智能其实就是统计学。

那么，人们是否需要机器给一个解释呢？

经济观察报：我们应该怎么去定义目前的深度学习技术路线，它是基于概率学的一个事物吗？

张钹：现在的深度学习本质是基于概率统计，什么叫做概率统计？没有那么玄，深度学习是寻找那些重复出现的模式，因此重复多了就被认为是规律（真理），因此谎言重复一千遍就被认为真理，所以为什么大数据有时会做出非常荒唐的结果，因为不管对不对，只要重复多了它就会按照这个规律走，就是谁说多了就是谁。

我常常讲我们现在还没有进入人工智能的核心问题，其实人工智能的核心是知识表示、不确定性推理这些，因为人类智慧的源泉在哪？在知识、经验、推理能力，这是人类理性的根本。现在形成的人工智能系统都非常脆弱容易受攻击或者欺骗，需要大量的数据，而且不可解释，存在非常严重的缺陷，这个缺陷是本质的，由其方法本身引起的。

经济观察报：就是说通过改良的方式无法彻底解决？比如我们再增加神经网络层数和复杂性或者再提升数据的量级，会解决它的缺陷吗？

张钹：改良是不行的，深度学习的本质就是利用没有加工处理过的数据用概率学习的“黑箱”处理方法来寻找它的规律，这个方法本身通常无法找到“有意义”的规律，它只能找到重复出现的模式，也就是说，你光靠数据，是无法达到真正的智能。

此外，深度学习只是目前人工智能技术的一部分，人工智能还有更大更宽的领域需要去研究，知识表示、不确定性处理、人机交互，等等一大片地方，不能说深度学习就是人工智能，深度学习只是人工智能的一部分。一直到去年人工智能大会交流的论文还是三分之一是机器学习方面，三分之二是其他方面。

经济观察报：学界在这上面还是有一个比较清晰的认识？

张钹：我可以这么说，全世界的学界大多数有清晰的认识；全世界的企业界大多持过于乐观的估计。

为什么出现这样的情况呢？因为从事过早期人工智能研究的人，大多已经故去或者年老，已经没有话语权。现在活跃在人工智能研究第一线的都是深度学习、大数据兴起以后加入的，他们对人工智能的了解不够全面。

经济观察报：如果说每一个技术路线都有一个“技术潜力”，那么在深度学习方面，我们已经把这个潜力用了多少？

张钹：科学研究是很难精确估计的，但是深度学习如果从应用角度，不去改变它，我觉得已经接近天花板了，就是说你要想再出现奇迹的可能性比较小了。

经济观察报：那基于此，目前商业公司在底层技术和产业应用上还是有很大的空间吗？

张钹：只要选好合适的应用场景，利用成熟的人工智能技术去做应用，还有较大的空间。目前在学术界围绕克服深度学习存在的问题，正展开深入的研究工作，希望企业界，特别是中小企业要密切注视研究工作的进展，及时地将新技术应用到自己的产品中。当然像谷歌、BAT这样规模的企业，他们都会去从事相关的研究工作，他们会把研究、开发与应用结合起来。

经济观察报：有一种观点认为我们强调的“白盒”（可理解性）它实际上是从人的思维来强调的，但是通过大数据、概率统计工具离散到连续的投射，它实际上是机器的思维，你不一定需要它给你一个解释，只要正确的答案就可以了？

张钹：目前有两种意见，一种观点认为智能化的道路是多条的，不是只有一条路能通向智能，我们通过自然进化产生了自然智能，那么我们为什么不能通过机器产生机器智能？这个智能和自然智能不会是完全一样的，条条大路通罗马，我们通过自然进化获得的智能也不见得是最佳的。这个观点我赞成，机器智能与人类不相同，其实是有好处的，恰恰可以互补，发挥各自的长处。

但是从长远来看，必须得走人类智能这条路，为什么？因为我们最终是要发展人机协同，人类和机器和谐共处的世界。我们不是说将来什么事情都让机器去管去做，人类在一边享受。我们要走人机共生这条路，这样机器的智能就必须和人类一样，不然没法共处，机器做出来的事情，我们不能理解，我们的意图机器也不知道，二者怎么能合作？

经济观察报：就是必须具有可解释性？

张钹：是，就是可解释性，你要它做决策，你不理解它，飞机就让它开，谁敢坐这架飞机？所以目前的阶段，车和飞机还是不能完全让机器开的。为什么司机坐在上面我们放心？因为我们和他同命运，要撞死一块撞死，机器和你可不是同一命运，它撞不死，你撞死了。

有的人非常脱离实际的去想这个问题，这是不对头的，人类怎么会去那样发展机器呢（注：指把人类的命运全部交给机器）？人类不会去那么发展的，有些人在那边担忧什么机器人统治人类，我说这最多只能算远虑。

经济观察报：所以图灵的论文中也说这种观点“不值一驳”。

张钹：是，那是远虑，我们目前还有很多近忧，发展人工智能必须要考虑安全问题，这已是现实问题。

你看语音合成，利用现有的技术可以做到以假乱真，和真人基本没有差别。现在看来这种技术不能推广应用，因为一旦推广就全乱套了，只要搞一段用语音合成技术做成的假录音，就可以让任何一位名人身败名裂。这些都是非常危险的技术。人工智能的治理已经提到日程上了。

三、“我们培养不出爱因斯坦、培养不出图灵”

人工智能在中国市场的快速商业化吸引了各类科研人员投身于此，在论文发表量和平均引用量两个指标上中国研究者表现出了竞争力，一种乐观的观点是“中国人工智能研究已经可以和美国并列”。

对此，张钹院士则谨慎地认为尽管在工程、产业化层面的某些方面中国人工智能已经接近世界水平，但在技术创新上，中国与世界水平差距还很大，实际上，至今为止几乎所有的人工智能原创研究成果都来自于美国。

作为中国人工智能科研的领军机构，清华大学也正在尝试改善这一情况，5月18日成立的清华大学“人工智能学堂班”（以下简称“智班”）是其中的一个举措。智班旨在培养人工智能领域领跑国际的拔尖科研创新人才，为未来一二十年的人工智能技术发展储备中国尖端人才，智班将从2019年秋季开始招收招本科生，首批预计招收30人，图灵奖得主、清华大学交叉信息院院长姚期智院士将担纲智班首席教授。

“我们清华开办一个人工智能班就是基于这个原理。中国在几十年前曾经丧失了一些和国际上同时起步的时机，我想我们现在有一个非常好的机会，在以后十年二十年人工智能会改变这个世界的时候，我们应该在这个时候跟别人同时起步甚至比别人更先走一步，好好培养我们的人才，从事我们的研究”姚期智表示。

清华大学副校长、教务长杨斌教授招生信息交流会的开场演讲中，拆解“人工智能”四字中所蕴含着的清华大学人才培养理念。他围绕“人”阐述了清华大学的“三位一体”教育理念、成人成才成群、人在才先、为国育士等；围绕“工”描述了清华人以此为生、精于此道、乐此不疲的工匠精神、追求做第一等事业的境界追求；围绕“智”解读了跳出“能衡量才发展”的怪圈、重视教育价值自在的清华思考；围绕“能”刻画了一代代清华人勇于担当、积极贡献的主人翁立场以及靠谱肯干、让人信赖的风格特质。

经济观察报：一种观点认为中国有更多的数据和更多的工程师，这种规模能倒推带来基础研究层面的突破或者决定技术的路线？

张钹：这里混淆了好多概念，科学、技术、工程。科技水平需要三个标准来衡量，一个是科研水平、一个是技术水平、一个是工程实践能力，或者产业化能力。

我们中国什么情况？从工程角度来看，在一些领域我们“接近世界水平”；技术水平我用的词是“较大差距”，因为不少东西还是外国会做我们不会做；科研究领域我用的词是“很大差距”，科学研究就是原创，实际上，所有人工智能领域的原创成果都是美国人做出来的，人工智能领域图灵奖得主共十一人，十个美国人，一个加拿大人。

经济观察报：数据显示中国在人工智能领域的论文发表量和被引用次数都已经进入前列位置，这是否说明中国人工智能科学研究领域的突破？

张钹：如果单从论文来看研究水平，基本反映在三个指标上：数量、平均引用率、单篇最高引用率。拿人工智能来讲，中国研究者论文的数量和平均引用率都还不错，但是单篇最高引用率和世界差距就很大，而这个指标恰恰是反映你的原创能力。

也就是说深度学习这个领域，我们的平均水平达到世界水平了，但是最高水平和世界差距还是很大的。不过还是要肯定的，我们应用上发展比较快。

经济观察报：清华在这方面有什么优势吗？

张钹：在人工智能重要的会议杂志上，这十年期间论文数量、平均质量CMU（美国卡耐基梅隆大学）排第一，清华大学排第二。我们培养的人，在计算机这个领域，清华的本科、博士生都是世界一流的。

目前我们的跟踪能力是比较强的，一旦有人起个头，我们能迅速跟上去。但是很可惜，我们缺乏顶尖人物，也培养不出顶尖的人才，如爱因斯坦、图灵等。

我个人认为原因之一，可能与中国的文化有点关系，我们的从众心理很严重，比如在人工智能领域，深度学习很热，发表的论文作者中几乎70%是华人，但是其他非热门领域，包括不确定性推理、知识表示等几乎没有华人作者。这就是从众扎堆，不愿意去探索“无人区”。

当然也不要着急，科学研究本来就是富人干的事情，是富国干的事情，我们还是发展中国家，科学研究起点比较低，暂时落后是难免的，我们会迎头赶上。

四、“低潮会发生，但不会像过去那样”

既有的深度学习技术到达它的顶点，好像难以发展了。但这不等于说我们不可以在它的基础上，向新的方向发展，走出一条新的发展道路。实际上，这项研究正在进行中。

张钹院士正在提倡第三代人工智能，按照目前的设想，新的技术路线应该要解决目前存在的不可理解性，脆弱性等缺陷，而这些可能还需要计算机科学与数学和脑科学的结合与突破。

在上世纪，人工智能技术也曾经因为技术方向“碰壁”而经历过漫长的低潮期，未来我们还将再经历一次这样的过程吗？

经济观察报：如果说深度学习已进天花板，那么人工智能未来的前进方向将会在哪？

张钹：最近我们准备提出一个新的概念，就是第三代人工智能的概念，人工智能实际上经历过两代，第一代就是符号推理，第二代就是目前的概率学习（或深度学习），我们认为现在正在进入人工智能的第三代。原因很明显，第一代、第二代都有很大的局限性。

经济观察报：你所说的第三代人工智能技术是有明确的实现方向或者特点吗？

张钹：我们现在提出的是要建立可解释、鲁棒性（注：可以理解为稳健性）的人工智能理论和方法，发展安全、可靠和可信的人工智能技术。

经济观察报：这样的技术可能要等很久？

张钹：是啊，很难预计，我们也很着急。

经济观察报：是不是还得回归到数学等理论层面里再去找新的方法？

张钹：这个目前我们有两条路，一个是和数学结合，一个是和脑科学结合。你想想如果没有新的数学工具，没有来自于脑科学启发下的新思路，哪来的新理论？另一方面是要把数据驱动和知识驱动结合起来，因为通过数学、脑科学上寻求突破是比较艰难的，前面这件事现在则完全能够做。

经济观察报：这个结合是指之前几十年人工智能的经验统合到一块？

张钹：是的，至少有一个方向就是要把第一代和第二代结合，利用各自的优势。但是这两个结合很困难，因为他们在不同空间中操作，一个是向量空间，一个是符号空间，也需要有新的数学工具的加入。

经济观察报：看人工智能历史，每一代技术之间有很长的间隔期，第三代人工智能技术也会这样吗？

张钹：我认为会更长，因为需要攻坚，因为遇到的问题更困难。

经济观察报：会不会再过10年、20年，人工智能在学界或者公众心中，又变成一个“隐学”，就像70、80年代那样，大众又不会再经常提起来这个词？

张钹：低潮会发生，但不会像过去那样，原因在哪？因为有大数据、互联网和强大的计算资源，这些都会支撑人工智能继续走下去，尽管有的时候还只是表面上的繁荣。

本文转载自“经济观察报”，作者宋笛。文章为作者独立观点，不代表芥末堆立场。

院士张钹：AI奇迹短期难再现 深度学习技术潜力已近天花板