科大讯飞董事长刘庆峰:AI赋能,迎接千帆竞发的新时代

新浪科技

新浪科技频道官方账号 2018.08.1618:49

关注

2018世界机器人大会拟于8月15日至19日在北京亦创国际会展中心举行。大会以“共创智慧新动能共享开放新时代”为主题，由“论坛”、“博览会”、“大赛”、“地面无人系统展示活动”四大版块构成。本届大赛汇聚了来自美国、俄罗斯、德国、日本、以色列等全球近20个国家和地区的1万余支赛队和数百名顶尖专家，共计超过5万多名参赛选手同台竞技。

在本次论坛上，科大讯飞股份有限公司董事长刘庆峰进行主题演讲“AI赋能，迎接千帆竞发的新时代”。

以下是演讲全文：

非常高兴能够来到这里和大家分享，大家可以看到我们屏幕上出现了讯飞听见转写的英文和翻译的英文，包括刚才麦肯锡博士的发言。一方面，我们可以更好地理解发言者所说的内容，把我们的语音直接转化成文字。另一方面还有一个更重大的意味，今天参加会议的各位领导和朋友们将有一项福利，也就是会后只要扫描一个二维码，所有发言人的演讲，每一页PPT对应的录音和文字都可以第一时间看到，便于我们更方便地回溯、整理和学习，甚至还有很多没来的朋友也可以分享。

这样一个技术转写的效果可以达到什么程度呢？如果今天在现场有人工的记录人员，准确率最好的是70%，一般我这样的语速不会超过80%，现在人工智能可以做到平均准确率达到95%以上，这是不联网没有任何训练的情况下，如果是手机上的输入法每天有1亿人使用，平均准确率可以超过98%，这是我们说的人工智能在不断改变世界，也在给我们带来全新的应用和社会发展的机会。

提到机器人，除了它的硬件，外观形象和运动之外，非常重要的就是后台的理解、预测、决策以及前端交互能力。因此，从人工智能的发展来看，1956年提出人工智能概念到现在的第三次浪潮，我们可以把后台核心算法的逻辑分解成这三个阶段：早期的计算智能，让机器能存储会计算，到感知智能机器能听会说、能看会认，现在这样一个会场正面的人脸识别已经可以超过99.9%，甚至超过美国FBI最好特工的水平，语音识别已经超过最好的速记员，甚至及其可以看到紫外线、红外线之外的内容，可以听到超声波、次声波之外的内容，所以感知智能方面机器已经越来越多地逼近甚至超越我们人类。下一个重点就是第三次人工智能浪潮的核心，基于深度神经网络为代表，以及更多新的算法正在不断研究当中，就是让机器具备理解、思考、学习和决策的能力，这是今天人工智能基本后台的逻辑，以便支撑机器人更好更快地进入社会生活的各个领域。

围绕着这样一个大的背景，国际社会都已经把人工智能作为未来人类发展最重要的战略方向。中国在去年国务院正式发布了新一代人工智能规划以后去年11月正式设立了人工智能四大平台，围绕科大讯飞建立智能语音人工智能开放平台。去年12月工信部正式设立了未来三年行动计划，列出了八个重点人工智能未来的应用方向，这些都表明了中国在人工智能方面是未来的主战场，也是和全世界完全同步。很多领域我们也在共同进入无人区，正在探索未来的发展。

当然，说到机器人，包括这次大会的展厅当中看到了很多各种运动情况的机器人，除了后台的理解和学习之外，也需要前端各种运动智能的掌控和不断的学习进步。大家都知道，波士顿动力的机器人去年可以做后空翻，现在可以爬楼梯。不过就在三天前网上刷屏的英国著名极限运动团队，我们看一看他们在香港的表演。

（播放短片）

刘庆峰：现在距离人类运动机器人还有很大的差距，无论是前端的人类交互、后端的理解以及运动方面，我们要真正呈现一个无比精彩的机器人世界其实人类还有很长的路要走。今天人工智能助力机器人最主要的可以从这几个方面发力，或者说科大讯飞看到的研发和产业化的机会：各种感知智能的融合，我们把语音、视觉、手势以及触摸等等相关技术完全融合在一起，形成一个全新的人机交互的未来；感知和运动智能的交联，根据视觉进行判断，根据听觉进行操作，以及认知智能超过博士以上的专业人员技能。

下面来看一看目前我们的技术进展到底到了什么程度。

任何一个机器人都要和人类交互，人机交互是非常重要的。当年把字符界面变成图形界面成就了微软的传奇，苹果在两周前市值突破了1万亿美金，因为乔布斯当年回归苹果把触摸做到了极致。今天越来越多的穿戴式设备普及的情况下没有屏幕或者屏幕很小，越来越多的设备在移动状况下使用，越来越多的机器人不可能每次交互都要触摸一下，还要按一下身上的某个键，一定要像人和人在远距离之外交流。因此在无屏、移动、原厂状况下，这几次全球消费的电子展都可以看到人机交互正在进入以语音为主、以键盘触摸为辅的人机交互时代。

这个时代当中非常重要的就是语音和机器的交互，要能听懂我们的讲话，自己能说话、能翻译，还能接受各种干扰，比如方言、噪音、多人说话等等场景。为此，科大讯飞提出了人工智能时代的用户交互界面，现在已经推出了3.0版本。

首先是语音合成，我们不方便用眼睛看屏幕，只能用机器人念给我们听以获得各种信息。就在一个月前，国际最权威的语音合成比赛“暴风雪竞赛”，由美国卡耐基梅隆大学牵头，科大讯飞第十三次获得全球第一名，这是英文合成的比赛，我们聚集了全世界唯一让计算机念英语超过真人说话，美国大学生是4.0分，科大讯飞是4.0分，全世界第二名是3.7分，也就是让计算机念英语，不是美国人，不是欧洲人，而是中国人做的，我们可以听一听英文合成的效果。

刚才看到的是我们比赛的原文，当然，假定我们把特朗普的很多声音合在一起会变成什么样子？这就是今天语音合成能够做到的程度，理论上在座各位的声音几分钟就可以，半个小时就可以很好地模仿大家的说话，大家看到的高德导航的林志玲、郭德纲的声音都是我们机器合成的。

语音识别发展到了什么阶段？大家已经看到了讯飞转写听到的各种效果，2015年12月是人类首次现场直播机器和人类PK，当时在北京找了五个持证上岗的资深记录人员，和科大讯飞的听写设备进行现场对决，公证机关来做公证，最后的结果是五个记录人员的最高准确率只有70%左右，机器的平均准确率达到95%以上，现在已经达到了98%。

我们可以看到中间的图，科大讯飞在2010年首次宣告手机语音停歇时代到来，深度神经网络开始推出全球第一个语音识别的开放平台，那个时候我们自己实验室的翻译识别准确率是80%，但真正推向市场准确率只有60%，因为有各种噪音、口音以及网络丢包等等现象，今天已经达到了98%。什么原因？50%是技术的进步，50%是数据的积累，现在每天有46亿人次使用我们的技术，各种口音机器全部自动训练。我可以负责任地告诉大家，都是机器全自动训练，绝对保护大家的隐私，工信部的领导也在这里，工信部专门设立了安全可靠语音云，和科大讯飞共同进行认证，证明我们的技术是安全可靠，保护用户隐私的。

最近一次的国际语音识别比赛是在2016年底在Google组织的，面向万物互联时代，多个人讲话，远距离讲话，噪音环境下，一共三个场景的国际英文语音识别，都是科大讯飞全世界第一名。

这是今天的语音听写情况，很高兴的是，我们的语音听写系统不仅在今年的全球消费电子展得到了很好的应用，在南非的金砖峰会，包括今年4月和联合国日内瓦总部签约，在国际电信联盟内部开会，我们的系统帮助做会议记要，同时帮助做必要的翻译。今年全国两会非常高大上的实际场景，李克强总理做政府工作报告的时候在的现场两端由人民日报新媒体中心用讯飞听见实时地把总理报告的中文进行字幕转写，同时翻译成英文，给很多国外记者带来了很大的福利。其实在这样全球高大上的场合还是第一次，充分表明了中国政府在用新技术方面的勇气和决心，也是对科技创新企业巨大的鼓舞。

就在一个月前，还有一件令我们很自豪的事情，就是李克强总理在保加利亚参加东欧和中欧16+1会议，总理在中国技术展示的现场用科大讯飞的翻译机和保加利亚总理交流，而且自己掏钱2，999元买了科大讯飞翻译机作为礼物送给保加利亚总理，这可能是中国领导人在国外现场自费购买礼品的第一次。为什么说机器人人工智能时代在中国有希望有前途？核心就是大家愿意去使用，使得我们这些创新型企业和科研团队能够获得难得的应用过程当中的锻炼机会以及科研牵引。

机器翻译到了什么程度呢？通常我们需要语音识别、文字到文字的翻译，然后再到语音合成。非常高兴地告诉大家，这个翻译在今年的博鳌论坛期间，科大讯飞作为唯一官方指定的翻译机，经过选型给所有的志愿者和外国友人提供翻译机服务，这个翻译已经是现在业界唯一达到大学六级口语水平的翻译机。本来我们给总理汇报明年年底我们的目标是达到专业八级，但告诉大家，最迟是2019年上半年我们的机器就可以达到专业八级的翻译水平。我还是忍不住掏出我们的翻译机给大家秀一下，因为有这么多国际友人，这次也给大会提供了三十台翻译机供大家在北京交流、吃小吃和旅游的时候使用。

“人工智能正在改变世界”（Artificial intelligence is changing the world）

不仅中英文，像我这样的洋泾浜也一样可以识别。现在有33种语言，包括在俄罗斯世界杯期间最火的就是我们的翻译机，因为要在俄罗斯点啤酒的话很多中国人是不懂俄罗斯语的，我们的目标是两年内达到100个语种，这是今天机器翻译会给我们世界带来的变化。

当然，就在不久前我们的翻译机2.0也亮相了央视的“机智过人”，其中有些题目，大家请感受一下。

“校长一再强调，除了校徽别别别的！”

就是因为这些技术进展，中国外文局已经和科大讯飞签订战略协议，共同搭建中国的人工智能翻译平台，全世界用汉语的除了中国人之外只有5，000万人，我们要和世界交流。人类命运共同体的前提是人类的相互交流，并在合作信任的基础上合作共赢，相信翻译技术会对人类的未来具有非常重要的意义。很高兴的是，中国的机器人人工智能相关企业会在这个进程当中发挥我们应有的作用。

当然，刚才讲的是机器的前端交互能听会说，后台的能理解会思考达到了什么程度呢？大家看到的是去年的新一代人工智能规划出来，其实我们的科技部、工信部还是非常有前瞻性的，2013年启动了中国的第一个人工智能重大专项类人答题机器人，机器未来能够参加高考和各种专业考试，不光是前端有感知，而且后台有学习、推理、理解相关功能，设立了专门的认知智能的国家重点实验室以及语音及语言的国家重点实验室和类脑实验的国家重点实验室。我们来看相关进展，首先是阅读理解，早期评价人工智能说的都是图灵测试，理论上就是后台机器的交互之间的语言理解能力。

国际最权威的比赛是斯坦福大学牵头的SQUID比赛，10万篇英文文章，人看了文章以后提问题，机器看到文章以后回答问题，今年科大讯飞获得了全球第一名，同时我们和微软是当时唯一的两个已经让机器的阅读理解超过真人水平的。根据斯坦福大学给的结果，人类回答这些问题的平均准确率是82.3%，而机器已经做到了82.48%，现在还在进步，已经做到了83%，即将超过85%，这是机器在阅读理解达到了超过人的水平，微软、Google、Facebook、IBM都参加了这场比赛。就在不久前进行了中文语法错误诊断，不光可以理解和给出答案，可以诊断外国人说中文以及中小学生的语病类型、语病定位、语病修改，7月的比赛科大讯飞也拿到了世界第一。当然，这是中文的，英文还没有类似的比赛，如果有我们也会参加。

刚才说到这些机器相关的理解，是不是机器已经真的可以无师自通，自我改变程序改变世界？我们再来看一些常识推理。没有10万篇文章，没有海量知识供它学习的时候，机器利用自己的知识进行常识推理能够达到什么程度？一个著名的比赛，两年前在纽约举行的测试是看机器的二元推理能力。就像这样一个例子，爸爸无法举起他的孩子，因为孩子虚弱还是因为爸爸虚弱？这对人类来说是很自然的话题，但对机器来说挺难的。比赛的时候组委会认为只有90分才能进入第二轮，科大讯飞也参加了，我们只得了58分，想到要赶快打道回府，没想到我们是全球第一名，今天我们已经做到了接近70分，去年底是66分，这个推理在二元结构上还没有达到6岁小孩常识推理的能力，也就是说我们在常识推理方面，没有先验知识的理论之外，比如我们在专用领域当律师、当医生、当老师，能不能把专用领域的训练变成通用领域的常识推理还有很长的路要走，需要在现有的深度学习，无论是算法体系还是对人类大脑的研究上做不断的突破。

就用今天已经达到的技术水平，我们已经可以深刻改变这个世界了。很多人都知道，去年我们让我们的机器人医生“小医”首次参加国际纸业医师资格考试，满分600分，50多万人类考试只有一半能过关，360分的分数线，机器考了496分，超过了96.3%的考生。不仅是考试的分数，现在这样一个人工智能的机器人已经在合肥正式上岗，开始看常见病。其实这是全球第一次让人工智能机器人具备了全科医生的潜质，今年3月看150多种病，现在已经可以看300多种病，完成了4，000多人次的诊断。很多地方未来我们建立人工智能诊疗平台就可以给偏远农村提供最好的智能助手，因为中国800万医生只有200万医生有医师资格证，我们还可以拿到这些证书当中的十里挑一，超过96%的人类考生，达到了前面的4%，这是人工智能在医疗领域的变化。

再就是人工智能在考试领域，这比下围棋更难，因为这是非常开放的领域，机器在英文作文和汉语作文方面都已经超过了人类老师。智能平台已经完成了2，000多万份的人类英语作业和作文，但高考改革希望做到一年多考，如果没有主观题的客观公正评价，一年多考这个高考改革就很难实施，现在人工智能帮助我们重大改革能够顺利地往前推动。

前面讲到的是人工智能现在能做的事情，可以说很多专业领域人工智能结合机器人的外形，或者是以无所不在的后台服务网络可以深刻地改变每个行业，学习顶尖专家知识和行业已有的数据，可以超过90%的普通专业人士，但是在常识推理上连6岁的孩子还没达到。下一步要做什么？其实人工智能和脑科学的结合是大家公认的大势所趋，所以我们可以看到麻省理工在今年4月开发了一个新的头戴式设备用来进行识别和打字，也就是用意念来进行打字，准确率做到92%。当然，不是开放的文字，而是给定的词汇，也是让人觉得很厉害的，各位坐在这里直接想文字就出来了。当然，类似这样的应用在去年年底的讯飞年度发布会上，也开始用脑电波控制几十种家电，现场请嘉宾来演示，现场做到100%准确，后台的准确率可以做到90%以上，这是语音和脑机接口的结合，将使未来的人工智能和机器人的学习有更多更直接鲜活的数据来源。

今年我们专门和中国脑科学计划的牵头单位同济大学，以及和中国420儿童脑科学研究最顶尖的机构北京师范大学共同启动了专门的脑科学研究计划，包括了中国教育脑计划，用人工智能帮助孩子因材施教，根据你的学习状况、知识水平，每个孩子回到家作业都不一样，极大地节约了孩子的无效重复学习时间。另外就是根据脑科学的分析和发展，更进一步因材施教，天生我材必有用。有人就不适合学数学，他就可以真的去发展艺术和语文，有的人语文能力不好而数学有天分就学数学，这是通过脑科学的很多前提研究帮助其未来形成更好的成长路径。这些在中国现在后台的科研单位、教育机构以及科技公司都已经开始实实在在地做这样的探索，脑科学的核心发现脑、发展脑以及保护大脑，这些我们都在脚踏实地地往前做。

当然，因为人工智能在各个领域的应用，目前的技术还需要专业知识，光有深度学习的算法不够，需要行业专家、需要行业数据，因此必须要让各个细分领域掌握专业知识、掌握数据，而且对应用有感觉的创业英雄和科学家们合作起来。因此，科大讯飞提出人工智能发展必须要靠产业生态，我们也是把我们的技术平台开放出来给所有创业团队以及所有科学家。现在我们平台上的创业团队数量已经超过了81万家，一年内增加了将近50万家，每天的使用量已经达到47亿人次。有两个好处：所有创业者拿着我们的平台可以快捷地开发出相关的应用，开发出来以后不光用了全世界最好的核心技术，后台的运营服务也是讯飞的人工智能云平台给予支撑，全世界最顶尖的科学家只要技术想被这80多万开发团队使用，集成在平台上面，几十万的团队马上可以使用这个技术，相关数据在脱敏之后不侵犯用户隐私的前提下可以反补我们的科学研究。我们把它叫做赋能开发者，成就科学家，现在已经和很多的科研机构在进行合作，包括中国科学院专门成立了人工智能产学研联盟，科大讯飞作为理事长单位，我们邀请科学院自动化所作为练习理事单位，就是要通过这个体系把它做大。

做好这个事情不光需要少数企业在社会生活各个领域让AI赋能，让机器人进入每个行业，还需要专业的人才培养。在去年11月24日科大讯飞发起的“1024全球开发者节”上（2的10次方正好是1024），正式发布了“AI大学”。到现在为止，学员数已经超过了22万，线上和线下联动的整个发展机制。我们也期待着在座的很多合作伙伴嘉宾能够加入到讯飞AI大学，因为它是免费的，我们希望给全行业赋能。在此基础上，讯飞进一步把人工智能开放平台做得简单易用，从软件到硬件到参考设计到行业已有的标准专业数据库的共享等等。以前用人工智能开发一个新的应用，比如做一个教育产品、做一个理财产品或者做一个智能家居最少要三个月到半年，后面是一到三个月。最近一次科大讯飞开发者平台的发布，今年5月17日中国电信日在深圳的发布，一小时内就开发出了应用。可以看到当时是现场志愿者举手参加在四个领域做程序员字典、我唱你猜、会场抽奖等等相关的AI应用。七点半开始开发，其它流程照常进行，那四个程序员在旁边开发，八点半所有应用已经提交，一个小时应用就开发了出来。相信这样给开发者赋能，乘十倍乘百倍地减少开发者前期投入的情况，将会使得整个人工智能的生态在中国出现极大的繁荣，也会推动机器人进入越来越多的领域。

现在我们在机器人领域当中已经有1万多家团队，包括从大到小、各种各样的儿童陪伴以及到各种社会服务的机器人。当然，今天这个场景我们这个环节讲的是国际开放合作，人工智能特别需要全球的合作。不仅是源头技术创新合作使得人工智能真正造福人类，而且还需要在伦理、人文和法律等等相关体系当中进行合作。非常高兴地在中美贸易摩擦的大背景下，一周前麻省理工的校长在纽约时报发表了他的署名文章，他认为中美是应该在科技领域合作的，中国的发展甚至克服挑战的过程也是美国的机会。这些代表了人工智能领域的主流精神，因为如果人工智能要改变世界，未来的五到十年大量替代现有的工作岗位的前提下，如何拓展出更多新的岗位？如何使得社会保障体系和法律更加健全？如何在伦理上和人文上进行引领？没有中美之间的合作，没有全球发达国家和人口众多的发展中国家的合作是不可能为人类赢得未来的，所以在机器人的未来、人工智能的未来都需要更大的开放共享、合作共赢。

在此基础上，科大讯飞专门实施了讯飞的人工智能工艺，包括了教育工艺，让人工智能帮助乡村老师成为最好的老师，把最好的教育能力投放到农村。人工智能+医疗，我们在10个贫困县在线诊疗，极大地提升一线医生的水平，包括方言保护工艺，去年开始我们的语音合成技术已经可以做到无监督训练，自动地任何语种拿过来训练完就可以达到3.5分以上的个性化语音合成，从而可以真的开始在全球进行抢救方言。现在全世界7，000多种方言大概每两周消失一种，AI技术是有望抢救方言的。同时用人工智能进行无障碍的公益，中国很多残疾人学校应用我们的系统，老师讲课那些聋人朋友直接看文字就可以。

相信人工智能可以以更有温度的方式造福整个时代，我们期待着和在座的合作伙伴一道共同用人工智能建设美好的世界，共同推动人工智能繁荣的发展。