毕啸南对话AI视觉革命者:看见无穷美好

新浪科技综合

7月6日上午,知名青年学者、媒体人毕啸南在深圳主持“零一科技节”第三场论坛——AI的视觉革命。来自硅谷的著名企业Oculus VR创始人Jack J.McCaul、NeuroSky神念科技CEO杨士玉以及国内知名创业企业零零无限创始人王孟秋、小狗机器人蔡炀等共同探讨AI给人类带来的新机遇与新未来。

毕啸南:无人机目前在国内有哪些新的技术突破?
王孟秋: 2017年我们发布了“小黑侠无人机”,现在我觉得这个技术普及的越来越多了,我们发布的产品应该是第一款纯粹靠计算机视觉单目摄像头识别跟踪,实现跟随拍摄,比如说玩轮滑、滑板的人,你把小飞机放到天上,它会跟着你时刻保持你在画面中的位置。包括我们在2017年1月份推出的一个功能叫“主人模式”,它会识别它自己的主人,你把它扔在空中它自己会在环境中寻找它自己的主人然后跟踪。
无人机可能是除了无人驾驶汽车以外,计算机视觉离产品化或者离实际应用最近的几个领域之一,今年我们也会陆续发几款产品,大家可以看到不管是传感器、计算能力还是这些视觉的算法,会得到进一步的提升。
毕啸南:这种拍摄型飞机,主要还是B2B还是B2C?将来有可能人手一台吗?
王孟秋:我们其实一直在做B2C,从来没有被分散过精力做任何B2B的事情,我们的目标就是能够做到人手一台。无人机从智能化的程度或者视觉技术应用,应该说走了三代。第一代无人机是最早的,我们熟知的大疆精灵1、精灵2,它没有任何辅助视觉导航功能,只是通过GPS和其他技术在室外飞行,没有办法在室内环境做到悬停和跟踪。第二代我们出的小黑侠,包括市面上的一些产品,都是同一类,就是它能够做简单的光流或者VIO这种算法,能够实现室内悬停,但是不具备完全自主的运动能力。
今年美国有一家公司,出的一款2500美金的飞机上面有多双目摄象头,很强大的运算单元,我觉得第三代无人机,其实定义很简单,你给它一个陌生室内环境从来没见过,它能不能自己飞完一整圈,这个过程当中实现室内地图,我觉得今年大家会看到另外一个飞跃,会有很多产品都是第三代无人机。
毕啸南:小狗机器人在整个视觉领域在做哪些布局?
蔡炀:小狗机器人我们聚焦在衣食住行里住的场景里,我们公司的愿景是希望用人工智能把它带到我们生活的各个角落,使得这些空间变得更加的安全,更加的便捷,更为有意思,使它成为真正意义上的智慧空间。
比如用于家庭看护机器人,可以给老人,家里边的一些小孩进行看护的服务。其实视觉在这两款产品里都扮演了非常重要的能力,视觉我认为一个最主要的能力是给机器装上一双像人一样聪明的眼睛,机器可以像我们人一样,可以去感知周围的世界。其实我们中文感知这个词非常好,它两个字很简单,但是它涵盖了我们视觉的两个非常重要的方面。感它代表着捕获信息,知代表着理解信息。我们人每天接收的信息当中80%是视觉信息,我们如何去消化理解这些信息?其实是非常重要的,同时也很困难的一个事情,但是我们人很厉害,在这两方面做得都非常好。
但是对于机器来说,虽然可以去捕捉这些信息,但是理解它其实非常的困难。比方说相机,发明有快200年的时间了,但是它一直只是一个信息采集的工具,并不是一个信息认知、理解的一个单元。所以计算机视觉它就是可以去帮助我们这些机器,让它们不仅可以看见,更可以看懂。
毕啸南:Jack,中国VR从2015、2016年的火爆崛起到现在声势渐下,美国是怎样的发展曲线与现状?
Jack J.McCauley: VR之前有一些被炒作的倾向,是部分被炒作的,被抬高了。比如说700美金的头盔,或者是1500元的电脑,让人们去玩游戏其实是挺难销售的。我的创始人和我是来自于电脑游戏的领域,我们希望能够将电脑游戏体验是最佳化的,所以我们刚进入市场的时候,我们在开发这个产品的时候,我们先做了两个设备,之后才做的商用设备。我觉得现在的发展有所放缓,我知道现在它的应用,比如说在游戏领域,比如说我们用控制器包括X-boxs,包括索尼的产品,它是劳动密集型行业,而且价格非常贵,可能需要花大概5亿的美金做大规模的生产,可能说生产出来一个30万的头盔,可能就不太现实,所以说在VR领域,有一些游戏是短平快的游戏,可以通过3D的形式来实现,所以我觉得在未来,它可能会有更好的表现。
毕啸南:视觉技术带来哪些突破点?在商业化、市场化中遇到的核心问题有哪些?
王孟秋:这几年变化最大的,还是嵌入式系统上运算能力提升了,所以加上摄象头就会处理这么多数据,所以这个门现在能识别你是谁。空调格力也在做,能识别有多少人在周围,调解温度。我们飞机只能自己旋停,它是瞎的,这是一个不可逆的方向或者趋势,人大概80%几的信息是通过眼睛,我们不是五官,有些人六感,其实最重要的是视觉,因为这个处理的信息量是最大的。
毕啸南:我突然想补充问一个问题,我们现在在探讨科技发展的时候,永远似乎都在关注人类能抵达的上限,而科技发展最重要是守住人类的底线,对人类文明、社会公平起到促进作用。你刚才也提到我们80%的人观察周围信息的时候都是通过双眼,对于很多盲人而言,我们这种AI视觉技术开发,能否对他们有一些贡献?
王孟秋:我知道在上海一家公司,他们就在做通过辅助的双目深度视觉技术,来帮助盲人做盲人的避障,相当于我硬生生给你加了一个类似自动驾驶汽车避障系统,在你快撞到什么东西的时候,通过语音或者通过声音,给盲人做一个倒车雷达,有这样的应用,有公司在做。
毕啸南:这个真的是很值得期待的事情,不过同样的,各位觉得未来有可能吗?因为我们知道这个世界比如说苍蝇的眼睛或者其他动物看到的世界,和豹子的眼睛、猫头鹰的眼睛,大家都各有强项,最后视觉技术发展,有可能集各动物灵长类的优点于一身,有这种可能性吗?
蔡炀:我觉得应该是有这种普遍性的,包括我之前做的一个产品叫人眼摄像机,其实那个摄像机我觉得可能比人眼更强一点,它具备了有点鹰眼的功能,不仅像人眼一样看得非常广,有200度的市场角,同时还能看到好几十米以外的视角,它就利用了刚才王孟秋利用的计算摄影学的技术,并不是完全依照摄影学的技术,它也参考了其他动物的能力设计的。从这个方面我们觉得是肯定存在的,包括像您刚刚提到的让盲人,或者一些视力有障碍的人再次看到,其实像杨总这边脑机借口我觉得是会有很多帮助,因为他视觉这部分神经受损,但是可以通过其他信号刺激,让他再次缠身对周围世界图象的感知,我不知道是不是这个样子。
杨士玉:我们在美国跟一家公司合作,做的是弱视几乎是盲人,不是完全盲,他可是可以看见东西的产品,这个不叫做VR叫做AR,它其实是用gooleGlas做的,它后来自己研发了一款。他做的是什么事情?比如说我今天去买咖啡,这些是弱视或者没有视觉的人是看不到菜单的,可是他又不愿意叫服务员,因为他们也是不想什么都要别人帮助,那他就可以通过这个眼镜看单子,这个单子会有一个耳机跟他说。那你怎么跟他回应?比如说你现在读这个单词给我听,不能用语音,因为这样太奇怪了,会让他们看起来不太像正常人。所以他们可以用脑波控制,看什么?做什么,什么时候停止,什么时候开始。这是人机界面,帮助盲人或者弱视的人,以一个眼镜跟世界接触,而且我们正常人不会感觉到他是不是跟他互动的,因为他是以脑波。我们在脑波方面就必须把数据用及时的人工智慧把它解释出他这个反应需要做什么样的解释,怎么样跟眼镜互动。
这方面当然有很多盲人可以得到优惠,还有一些残障人士,我们在日本和德国有一个客户,他做的不是机器人,他做的是一个骨架、外骨骼,你可以穿进去,不过你的身自可以出来,类似于一个支架,你如果受伤不能走路,要复健,它可以帮助你走路,你只要有一点点力气它就可以帮助你把力气使出来。我们做这种工作就必须把数据收集,及时用人工智能的方法,解释他想要做什么,再放到机器里,让他及时做,这个不能太多,我要踏出一步,我不可能等2、3分钟做出结果,必须是1秒、2秒内做出来。