前金山CEO张宏江:人工智能在投资与学术均存在泡沫
新浪科技讯 12月1日下午消息,在今日举办的“全球思想盛筵-人工智能与人类文明”上,来自Open AI战略与传播中心主任Jack Clark与加州大学伯克利分校计算机视觉教授马毅、斯坦福大学计算机学院、人工智能实验室教授Yoav Soham、前金山CEO、源码资本投资合伙人张宏江进行对话,探讨全球人工智能技术最新趋势。
张宏江表示,人工智能已经出现了投资泡沫,在学术方面也有泡沫,人们都希望走捷径。深度学习、机器学习快速发展,已经有很快的步伐了,现在应该冷静下来看一下AI的实际情况,看看方向是否正确,是否应该退后一步,应当重新审视AI的现实问题。
对于机器超越人类的担忧,张宏江认为,不确定机器学习究竟什么时候能够超越人类智慧,因为他们不光需要有逻辑和计算能力,还需要有情感的共鸣,只是大家不要去害怕未来的发生。
人工智能发展哪些因素最重要?加州大学伯克利分校计算机视觉教授马毅称,AI的汉语名称人工是排在智能前,我们始终强调人类的智慧和人类的设计标签。计算法、模型也非常有用,能够帮助消化和处理更多的数据,所以这三个原因都有助力,这三个因素都是相辅相成。
谈及AI的快速发展,斯坦福大学计算机学院、人工智能实验室教授Yoav Soham表示,AI不仅就发展速度极快,而且在应用方面也是让人吃惊的。今天AI主要是由机器学习为支撑的,但是两者也不是完全重叠的,实际上有了这样的机器学习和数据支持才有AI的技术。(泽宇)
以下为对话实录:
Jack Clark:谢谢各位让我们参加第一次的圆桌论坛,也感谢各位的参与,今天想听听各位探讨一下AI的进步。当我们提到AI的进步,在过去的二十年我们有三个基本的理由,首先是大规模数据的应用,第二是快速计算机的计算能力,第三是新的算法,大家考虑到这些进步的话,我想问问哪个因素导致的进步因素最大,哪个是最小的?这三个因素中哪个影响最大?
马毅:为什么说AI这么成功,成为了现象级的事件?我觉得任何现象级的事件都有很多里程碑的事件,有多因素的推动。如果没有多因素推动,在高速运转下不会有这种成功。我们知道市场竞争非常快速,还有我们的分布式计算的能力都提高了,在过去五年到十年中显著提高了。同时数据的数据和有标志的数据都提高了特定领域的机器学习能力。
中国的翻译是叫人工智能,而且在中文中人工是排在智能前,我们始终强调人类的智慧和人类的设计标签。计算法、模型也非常有用,能够帮助我们消化和处理更多的数据,所以这三个原因都有助力,这三个因素都是相辅相成。
应用本身在积极应用大数据,所以我想正是这几大要素一块来促使这个故事能够走向成功。
Yoav Shoham:我能重复你的答案吗?我非常赞成你的想法,数据、计算能力、算法这三大要素的确是背后的推手。
张宏江:在过去的十年随着移动互联网的兴起让我们感受到了数据的质量在不断提升,我们也更加深层次介入到整个数据处理系统的建设,移动互联网在过去的十年,尤其是五年,中国在世界上占有首位的地位,因为中国的人口数量占有绝对优势,而移动互联网也就此兴起,移动支付像头条努力推的以及相关的应用非常成功。
在过去的15年、20年,因特网和互联网都是在桌面上来操作的。同时在过去15年中国企业始终找美国企业来对标,但是现在有了对标没有办法找到美国的对标企业,因为我们基本上是美国企业来模仿、学习中国企业的,所以我们看到学习方向的对调性。
在过去到现在我们的理念似乎调了个头,从中国企业学习美国到美国企业学习中国。像头条这类的应用,可以说收集了相当多的高质量数据。也为我们设计了新的系统、新的算法,也整个推动了AI引擎的发展。
从移动端的数据和电脑端的数据,在过去的几年可以说也是AI发展的重要推力。
Jack Clark:刚刚您提到过了不光是几大市场,不光是几大中美的市场能够真正做出一些贡献,还有日本以及像欧洲的企业也不可或缺。您刚刚说到了数据,数据当然非常关键,现在的数据库、数据集是海量的,也为我们提供了新的创新能力。当然源头都是计算能力,因为我们要用计算能力去培训、去设计模型。在国际社会上我们有一些基本的趋势,大部分的AI企业都会购买很多芯片,包括一些图象处理的芯片,因为这些是一些基础芯片。那再过几年包括像今年有新型计算机,像一些做软件处理的企业会自己生产一些新的芯片,包括在美国、欧洲,像谷歌有自己的芯片生产公司了。
我们现在有快速的芯片生产和设计能力,而且是专门针对神经网络的,这对科学和商业化有什么样的影响,或者说有什么样更多的机遇出现呢?
张宏江:我首先来回答这个问题,你刚刚描述了这一轮推动AI发展的三大要素,我觉得这不光是一个广泛意义上的计算能力,更是一种核心计算能力。比如说一个小的创新公司没有钱去购买大型高端的服务器,你可能就在云平台上工作,因为云也是这个时代的创新。你看到越来越多的特殊芯片的时候,你也会慢慢地感受到整个人工智能从云平台真正走向了终端,我们是从顶端走向终端的过程。
在这个过程中就会诞生很多新的创新,包括像家庭的人工智能,还有相关的一些应用。比如说你可以感受一下过去几年在国内有一些智能的交通,相关的一些生活应用会越来越多。所以中国的市场未来潜力也是非常大。
Yoav Shoham:我待会再说,因为我觉得前面嘉宾都把我的话说完了。
马毅:你刚刚说到了我们的算法,尤其是循环算法的发展。我们现在的局面和阶段可以说是资源有限,所以我们反复把模型越做越深,数据量越来越大。像谷歌这样的企业、脸书这些企业是背后重要的推力。但是从规模经济的角度来说,我自己是做算法的。我觉得迟早人们会意识到我们的计算能力是有限的,肯定是有边界的,就只往效率方面提升。我们在开发算法的时候,特别是算法的培训,针对神经网络大型模型的神经网络培训的时候,我们发现算法是上世纪九十年代出来的,很慢,没有八十年代的效率高,为什么会出现这种情况呢?因为没有办法去扩展,没有办法去提升。回到五十年代看看当时的算法,其实最有效的算法是五十年代出来的,很多是由俄国人写出来的,他们的技能和商业化应用都很好。
那么这就让我反思,可能资源太多不利于创新。
Jack Clark:你的意思是说人变懒了,懒于思考,因为计算机代替了人类思考。
马毅:一定程度上的确是,我们可以用GPU和CPU来取代思考,就好像我们资源无限、数据无限。我觉得这只是暂时的现象,因为任何企业要有竞争力的话,你一定要有效率,你一定要有提高计算效率的一种能力,所以更有效率的芯片和算法才能够真正确保未来AI的美好前景。
Jack Clark:就你的这个点我觉得很有意思,比如你跟学生在沟通的时候,你是不是不让他们用最新的GPU?你说你要用上个世纪的GPU,因为算法更有效?
马毅:其实这也是我的一个焦虑,因为学生每个月都跟我抱怨我的算法已经过时了,你能不能再买几个GPU、CPU,我可以几个小时就可以完成我的算法。这种对话经常在办公室发生,他们经常来找我抱怨。我一直强调,其实两年前我们可能只有简单处理数据的芯片,但是当时也没有阻止我们去进行创新,所以我总觉得现代所有的像机器学习和计算机视觉的技术并不能帮助我们解决所有的问题。我觉得大家考虑的就是怎么样能够提高效率来使用资源。
Jack Clark:我还有下一个问题,您刚才说到新的芯片能够产生新的应用,尤其是有移动互联网的应用。那么能不能给我们更多的案例,究竟什么样的企业是真正做到了创新,能够利用云平台来发展自己的大数据和AI的能力?
张宏江:我其实不好直接说两大领域,因为整个行业的领域非常多,他们都能够从中受益,都能够受到新芯片发展的一些好处。假如说看看中国的城市有很多摄像头,街上就有摄像头。我不知道是不是您第一次来北京,假如你在北京机场下来之后可能会意识到要通过几个门。比如说你在登机前要走安检门,基本上安检门处有一个扫二维码的来扫登机牌,所以会提示你是否准时登机了。
同时你还可以去托运你的行李,假如说你的时间不够了,到登机门的时间不够就让你停下来了,你就没法登机,你也没有必要跑到登机们,这就是简单的应用来测算你的时间。或者说在大街上也有摄像头,摄像头背后被称为城市大脑,城市大脑为城市监测和管理规划整个交通流。我知道我们来开会之前就知道自己快要迟到了,因为这边有交通管制。
我想未来这种情况也是可以避免的,我们会有一种方法来确保你在开车的时候不会受到其他驾驶员的影响。比如说脸部识别,最开始我们有一些APP能够捕获一些数据,然后把这些数据或者视频发送到云端。但是现在在中国绝大多数的视频、摄像头可以直接在自己的设备上做脸部识别了,不需要再上传到云端了。在中国我们在这个技术方面,已经有了一些世界领军的企业。
Jack Clark:谢谢你的分享,我们在探讨无人驾驶之前,可能先要处理交通拥堵问题,利用AI是会给大家带来惊喜的一个技术。
三位都曾经在AI方面有很多年的工作经历,我在想如果我们有一个时间机器回到十年之前,你觉得我们的这种进展能够走到今天的地步吗?你觉得十年之前会因为今天的局面而感到非常震惊吗,想到未来十年会是这样子?
Yoav Shoham:我觉得回到十年前看到今天这种场景的话,我会对朝这个方向取得的飞速发展而感到非常差异。今天AI主要是由机器学习为支撑的,但是两者也不是完全重叠的,实际上有了这样的机器学习和数据支持才有AI的技术。
另外,不仅就发展速度上很吃惊,而是说有很多应用也是非常让人吃惊的。近期有人预测我们可能会超过计算机给大家带来的利益,我想人们一定会吃惊的是在很多其他的领域,比如说人类推理也是可以应用到AI的,你会意识到可能机器人的智能能够超过一个5岁的儿童,这是会让你感到非常震惊的地方。
张宏江:我非常同意Yoav Shoham的观点,我们取得的杰出成就确实是令人吃惊的。当我刚开始了解到深度学习文件的时候,我脑海中出现的事情是这个事情是在25年前就有的东西,当时在八十年代就有了,大家都觉得这是一个很好的推理工作的重要工具。但是25年前还没有深度的发展,现在和当时发展的局面已经非常不一样了,因为我们有很多的数据来支持深度学习。过去25年里,我们所取得的进展是比我想象得要更加具有变革性的。
马毅:公共领域可能会觉得有一些事情已经越过了一个门槛,这些应用确实发生了一些事情超过了他们的界限。像大计算这样的东西,我二十年前毕业了,我当时和现在的情况是不一样的,我当时找到了一份控制体系的工作,但是刚毕业时没有找到大计算方面的工作。后来又花了二十年的时间,这个行业才取得了智能化的发展。我刚毕业的时候计算是非常小的领域,但是现在我觉得已经是一个非常大的领域了。像会议有5000个人的规模来参加大会都是有可能的。
但是像脸部识别这样的技能在它真正能发展到一定级别,比如可以做一些实时的设置或者实时的设备技术等等,大众一般不会觉得它是可用的。只有当达到了正面的时候才会使大家欢迎,在学术界来说我们是知道的,是有发展逐步渐进的过程。我们看到大计算的发展是有根本性的变化,但是真正要应用到大众心理的话,还是需要朝这个方向做一些逐步的努力。
Jack Clark:我想您的观点,我们很多AI现在的模式都是基于大量的数据,你有电脑,你了解了一些模型,这些模型可能是非常复杂的,你可以拍一张照片,或者自动地去储存它,但是总会给你留下印象深刻的结果。但是机器学习和人类的常识不是一样的,机器学习和人类的推理过程也是不一样的,是不是在推理方面的进展还比较慢呢?
马毅:我一开始是控制学方面的专家,我做了机器人控制系统的开发。我觉得我们的愿景应该让计算机能够利用我们的环境采取相应的行动,大概二十多年前,曾经有教授说我们应该执行行动,这才是机器人的关键。现在我们有很多计算机系统,有一些物品,看到了这些物品就发送一些照片采取一些行动。但是真正能够让这个机器成为一种可行动的信息源的话,还是要有一定的时间。就像人类一样,我们可以看到这个世界,但是我们要和真实世界有沟通、有互动,比如控制这个水瓶,然后能够自动做出一定决定、执行一定的任务,这些是机器未来的发展方向。但是这方面还没有实现这个目标,我们确实有一定视觉上的图像发展,但是距离真正理解整个世界、整个环境的复杂性来说,机器人还是有一定距离的。
不仅是几何学,另外还有各种学科可能对于机器人学会掌握都是比较复杂的。另外还有视觉、语音是封闭的体系,可能驾驶也是其中的一个封闭体系,我们首先要做机器人的测试来看这些AI的能力是如何的。
Yoav Shoham:我觉得你说的很对,我们现在所生活的世界是非常复杂的识别过程。处在这样的情景中,包括你的商务需要有各种特征需要你捕获,有的时候是以事件为基础的,有的时候是以状态为基础的。如果特征交到你手里的话,可能是图片的形式,可能是财务数据或者是客户购买数据,这就是你业务的开始了。但是世界上绝大多数的问题并不是这样的方式来解决的,我们可能并没有机器能够随时帮助我们解决这些问题。
过去比如说在几万年的时间里,人类都致力于用语言来描述世界的现象,觉得语言是有深度结构化的。7万年前人类就有了这种能力,所以机器还需要花很长时间来跟上人类的步伐来做深度语义结构化。
张宏江:我觉得Yoav Shoham刚才想解释的是,在深度学习方面还是有许多其他的方面是AI需要更多关注的。很不幸的是,正如刚才说的一方面你能看到我们现在有一些会议的规模越来越大了,对于一些企业来说也越来越受到追捧,很多赞助商愿意赞助AI的企业,这就是它的热度了。当然我很高兴看到这种趋势,但是另一方面你一定要扪心自问,深度学习是唯一的方式吗?是唯一能够解决我们现实世界问题的方式吗?AI的未来是怎样的呢?我觉得很不幸,现在已经有了一定的投资泡沫,在学术方面也有AI方面的泡沫,人们都希望走捷径。
如果有一个领域突然火起来了,就会有很多的学术文章、很多的投资流向这个领域。就过去的这些年而言,我觉得深度学习、机器学习快速发展,已经有很快的步伐了,现在是时候让我们冷静下来扪心自问看一下AI的实际情况,来看看是不是继续这方向,还是说是不是应该退后一步、清醒一下重新审视现在的现实问题。
Jack Clark:我也想提出一个观点,大家提出来的是非常受欢迎的观点,可能是大家之前在私底下有类似的想法,今天是第一次展现在公众面前。我也是类似的观点,如果培训、训练的是无人驾驶汽车、机器人体系,可能有一个模拟器想要模拟整个现实世界的真实情况,然后以更快的速度、超越现实的速度来进行这样的模拟。但是现实世界是很难像我们想象那样轻易构建起来的,实际上我们手头的资源并不是很充足。
另外刚才大家谈到了一点,一旦我们有了一个经典的体系可以能够提供机器人行动,另外可以智能化去学习的话。我觉得具体怎么去实现这一点还是没有现有答案的,当然我们都描绘了很好的蓝图,都有很好的激情希望未来是怎样的。也有一些领域是投资不足的,如果投资不足的话可能发展速度会下来,但是这可能只是我的一个观点,大家有没有类似的观点?
马毅:我可以简要地补充一下您刚才的这种假设,因为我们看到过去的发展进程,简直就是螺旋式地上升。如果你和杨乐坤(音)交流的话,他在几个月前访问过我们,他曾经说过如果你看一下像阿波罗这样的想法,其实已经有了这些神经学习了。至于控制力,你要了解它的一些具体的参数,也就是控制体系参数的控制。对于整个体系能够很好地学习,并且能够适应我们环境的话,这方面的研究一定要是关于控制理论、控制体系方面的理论。我们可能要研究个五十年,可能要学习不同的模型、不同模型之间的区别。
我们可能要有一些计算机的应用来辅助研究,但是概念已经形成了。关于监督式的学习,我们现在就是有了适应性的控制系统作为支持才能取得发展。另外还有各种的模型,就是因为有神经网络的支持才能实现,所以创新的产品是很多的,在不同的背景下有不同的应用。但是最终我们需要有知识,许多的想法、许多的观点比如说关于体系、关于控制理论的,他们需要应用到我们的机器学习理论中来。
而且我可以和大家分享一下,关于信息理论现在有很多的说法,到底我们的神经系统在做什么?我有朋友来自于AIT,他跟我曾经说过,我们确实有做分类的神经体系,从信息的角度去做。在这个网络中,我们监督式的系统做的事情是非常清楚什么是可以做的、什么是不可以做的,这样的清晰度就能够驱动我们、了解我们的局限性,而且会考虑到合作的重要性,比如说和常识进行连接,和人类的智慧进行连接,共同和AI一块走向未来。
Yoav Shoham:我有两点可能是有一点点不同,分别是从短期和长期来看。在短期来看,我觉得你的观点好像更多是关注视觉化,所以我在学术和业界都有AI的实践。同时我也关注未来图像的变化。
我们现在也在发展一个卡通形象,因为我在小时候当孩子在看星空的时候,就会感觉到星空的美妙。当时还拿了一个凳子,为了离星空更近一点,这就像我们对待AI的态度一样,我们现在只是拿着凳子站在上面,而数据就是凳子本身,未来的路非常远,前景非常激动。但是确实是一个任重道远的事情,这是我的第一点观点。
从长期来看,我们已经有很多潜在的障碍了,比如说拿500年的时间界限来看,500年是一个上线不是下限。500年很好理解,因为迟早机器会超越人类的智慧。
张宏江:我是做业界的,我来自于产业。在过去几个月也花时间在思考,我在跟学界的人去沟通,看看他们的一些学术的探讨。我很想从他们的脸上读到的答案就是深度学习已经有很多成果了,也有很多相关的工具。还有很多工程师,也知道深度学习该怎么样去打造系统。现在是不是已经到了一个时刻,这些研究人员可以来看一看业界的东西,而不光是在实验室来看他们的理论,我觉得大家可以看一看超越在简单的强化学习之外的工作,看看新的学习参数、新的方法能够为我们带来新一波的创新。
整个行业是不是应该来思考整个系统性的东西呢?因为我也做系统。大家不需要一股脑地挤进一个非常狭窄的方法论学习,我觉得大家应该打开视野,来真正的真实世界来看看,这是我给学界人的观点。
Jack Clark:我非常感谢你的勇敢的推断,您还给了一个特地的数据。我想总结一下,在500年可能是一个上线,你可以想象机器的指挥会超过人类。
您能不能够给我们一下您的建议,您觉得这个说法可行吗?也可以把时限和空间的距离拉大一些。
张宏江:我想举个我自己的例子,25年前当时我做的是脸部识别,当时我自己做了一个模型,在1993年做的,我觉得比大家的年龄还要大,1993年大家还没出生吧,这是一个面部识别的公司。当时有一个终端来收集人的面部表情,还有一个末端能够去处理数据,我们当时有一个分布式的计算系统来做所有后台的运算。
当时这个模型在1993年上线,差不多二十多年了。今年已经二十多年了,我们觉得面部识别已经是一个很成熟的技术了,像我的学生、我学生的学生都在做很多面部识别的公司,他们在中国的公司还是世界顶尖的。
最终是这一天到了,他们实现了我的梦想和理想,同时他们超越了我的能力,他们在手机上就实现了面部识别,不需要背后有很大的计算机系统,也不需要用到大量的云。我就想二十年其实不短,在人的一生中二十年已经不短了,但是在人类历史上其实只是沧海一粟,所以我非常乐观。我不太确定机器学习究竟什么时候能够超越人类智慧,因为他们不光需要有逻辑和计算能力,他们需要有情感的共鸣。我不太确定具体的时间,我也不知道有没有这样一天,只是大家不要去害怕未来的发生,也不要害怕一生的所求,你要思考你是不是能够获得这种能力,其实我没有什么答案和时间。
马毅:我觉得你已经提到这个时间点了,人类的智慧也是经历过几十亿万年的进化才到今天的,而且有几十万亿个神经原。今天大部分的成就和成功都是一个短期的学习过程,我们可以把它翻译成为简单的人工智能,人在前,这包括人和人的对话等等。
但是现在机器学习的方法和人类学习不一样,人类和大脑的进化是一种强化性学习,本身是强化学习的方式,这就是所谓的强化性学习。但是这是花了好多年的时间,现在人的大脑结构已经非常完善了,我们的孩子在小的时候不需要去监督他们的学习,不需要为他们去指错,不需要培训这是水杯或者这是什么,其实他们第一年就能够掌握,没有人去监督他们。他们听取自然语言,他们去感受信号处理,他们去尝试视觉分享,他们自己去进行人脑的组成,所以他们自己进行监督,而不是人类大人去监督。我想这是人工智能的一个演变方式。
我们现在在考虑怎么把这几十万亿年的学习花十年让机器去。
Jack Clark:所以你的意思是说人类比如说花了200万年,机器花更短的时间?
马毅:对,这个阶段是很短的,我们要把几十万亿年人类的学习时间浓缩,希望人类不要在这个过程中看不到这一天。因为确实我们要考虑到人应该怎么去适应,在非监督方式中自动适应。
Jack Clark:所以可能100年是吗?
马毅:其实我希望在我的有生之年能够看到这一天。
Jack Clark:谢谢你们的分享,也谢谢所有的四位嘉宾!