Torsten Kroeger：机器人操控还存在很多挑战

新浪科技

新浪科技频道官方账号 2018.08.2010:14

关注

新浪科技讯 8月20日消息，2018世界机器人大会拟于8月15日至19日在北京亦创国际会展中心举行。大会以“共创智慧新动能共享开放新时代”为主题，由“论坛”、“博览会”、“大赛”、“地面无人系统展示活动”四大版块构成。本届大赛汇聚了来自美国、俄罗斯、德国、日本、以色列等全球近20个国家和地区的1万余支赛队和数百名顶尖专家，共计超过5万多名参赛选手同台竞技。

德国卡尔斯鲁厄理工学院教授Torsten Kroeger在论坛上发表了题为“基于强化学习和智能传感器控制的工业机器人实时运动规划”的演讲。

有些人可能看过这个视频，这是一个高速操控的任务，不仅个人可以去做，团队也可以去做，这是两个人在完成同个任务。如果我们看机器人的话，目前为止机器人还没有这么聪明，机器学习给了我们一个新的工具，可以让机器人去学习，尽可能完成这样的任务，当然也是尽可能从人类这里学习。机器人首先要将认知和行动连接到一起，把这几个控制单元设计好。

为什么机器人还做不了这些事情呢？这是感知与行动之间的差异，机器人首先要有通过传感器获得感知的能力，必须要把视觉感知纳入到机器人当中。看一看人工智能，在过去的三到五年中，视觉感知和语音识别方面都发生了重大的突破，这些领域现在所拥有的数据量已经非常大了，比如监督式学习、图像识别，甚至现在有些视频数据能够被识别出来。神经网络现在甚至在实现云识别，包括语音的翻译方面有些已经做得比人类更好，比如Google Home、ALEX都已经做得非常不错了，每周这些领域都会有些新的进展。然而仍然有很多挑战，就是机器人和世界的物理互动，机器人和机器人在一起的时候如何能够保证安全，这个方面我们并没有足够的数据，后面我会讲到更多的细节。

这是国际象棋，IBM的深蓝在1997年击败了当时的国际象棋冠军卡斯帕罗夫，这在当时就被认为是人工智能。但如果看一看人工智能的定义和现在的发展，想一想它到底意味着什么，那个时候系统可以玩国际象棋，但这个机器人是没有办法面对面地和我下国际象棋的。可能有些人会说这不是什么问题，找一个人替机器来走就可以。然而用金属、木头或者玻璃做的东西，对于机器人而言就可能无法分辨，机器人操控到现在还是存在很多挑战的。

我们来看实时动作规划，这个机器人可以避免和人发生对抗和冲撞，也是在躲避人类。这里的算法其实是非常简单的，就是在一个2.5D的空间当中，可以躲开很多的障碍，需要考虑到整个机器人的机身，也要考虑到它的空间和运动速度，然后用OTG框架。要让机器人识别外方动作的轨迹，能够实时地检测这些动作，然后就可以躲开。这里会有一个速度的矢量，机器人会躲着人的运动，也会受到一些限制。我们也在不断扩大这个算法的应用范围，现在这个算法还可以考虑到其它的因素，甚至考虑到扭矩，也就是可以让机器人完全避免和人之间的碰撞，甚至能够实时地、确定地做到这些事情。

这个算法是在一定的空间内让机器人检测动作移动的路径，需要关注它的方向和速度，然后将机器人从一个状态移动到另外一个状态。这是位置、速度、加速度和自由度这样几个因子，还有力和路径的传感器，反应速度大概是500毫秒左右，能够反应出在某个动作下面需要转向哪个方向、转到什么位置，然后自动控制它的行动。

这是一个相对比较简单的算法，就要考虑到现在目标的状态，通过计算考虑新的移动位置，所以这个控制周期当中从第一个位置到第二个位置开始进行移动。要把这个想法融入到现在的系统当中其实是非常容易的，这是算法当中所有的API，就是两个方法：一个Constructor，一个Destructor，也就是在现有的目标位置移动，这种API是非常简单的。

这个视频是2011年拍摄的，可以看到我们的一个学生设计了这样一个可以打架的机器人，使用的就是这样一个算法，是为机器人设计了一个非常简单的算法，通过这样简单的算法，机器人应用传感器可以实现和人的互动，一个是攻击的模式，一个是防守的模式。

我们再看一些其它的应用，这是应用于打钻的，也是基于传感器的，可以同时有8个钻头来做打钻的工作，也是一个非常成功的应用，比如太空望远镜的生产领域得到了应用，也被应用在了工业机器人上面，还有一些其它的应用，可能是在很多实验室当中。

这部分是简单的、决定性的算法，充分利用实时的机器人动力学能力，下面再来谈一谈混合控制。混合控制意味着你有一系列的控制器，包括距离控制器、运动控制器等等，根据任务的不同，针对这些控制器进行配置，以便让你的机器人发挥最大的实用价值。我们有传感器、运动控制器、视觉控制器等等，需要从这样一堆的材料当中检出其中的一个，必须控制它的速度和力量，这样才能把其中的一片拉出来，不让它整个倒掉。

这张图看起来比较复杂，我们可以看左边的内容，两个红色的框是运动规划算法：一个是位置，另一个是速度，下面还有力量控制器、距离控制器以及视觉伺服控制模块。我们找到了一种比较简单的方式，把它称为适应性的选择矩阵，这里有多样的控制器，包括位置控制、距离控制、力量控制和自由度控制。如果你的控制频率是1赫兹的话，可以确保它的稳定，因为总是有一个备份的控制器，其实这是矩阵当中一个新的维度，如果一个控制器发生故障或者出了问题，一般来说是没有备份，这里我们有一个备份的控制器，比如视觉伺服控制器如果不能发挥作用，看不见东西的话就可以有另外一个备份的视觉控制器开始启用。

这个架构是Jango机器人开始使用的，遇到的问题可能是要求有很多专业的知识，因为做机器人的编程是非常专业的事情，而且也非常的昂贵，需要专家的知识，至少是博士水平的工程师。虽然是非常强大的，但也有一些限制，因为对公司和行业来说可能对这样的系统进行编程是非常昂贵的，所以我们的一种方法就是利用机器学习的五算法以及加强机器学习的方法。

大家一定都读过视频和文献，这项工作就是学习机器人，我们和一系列人士合作，这里也要感谢他们。这个想法是让一个机器人自我学会怎么操控物体，当时我们所做的工作是非常简单的。我们要让这个机器人抓取物体，为了做到这一点就要学会协调摄像头和抓手，摄像头是512×512像素，加上两根指头的抓手，摄像头输入视觉图像，然后确定抓取策略，最后会预测抓取策略的成功率，很短的时间内进行计算，然后选择最有可能成功的那个抓取策略。

我们大概做了两个月的实验，不是每次都成功，但有些是成功的。我们一共做了8万次的抓取，14只机械臂，可以看到有些视觉的表达。这项功能非常简单，我们会进行一个评估，就是当机械臂合并的时候没有东西就是不成功，有东西就是成功。我们还有一个优化的机制，可以看到机器人想抓住一个小东西，把这个东西放到了旁边，然后抓住另外一个东西，这是因为它做了优化，就是对成功率进行了预测，通过神经网络发现这样的移动会取得更大的成功。

不同的物体有不同的抓取策略，比如这张幻灯片左上角是一些透明的物体，而在右边是一些金属的物体，所以这些决策都是基于数据作出的。我们还有使用一些新的、从来没有见过的物体，和之前使用过的类似物体相比，学习速度会越来越快。

下面我们来谈学术角度的问题，这里想强调的是，这个系统的工作在设置应用当中是可以使用的，但如果改变一个元素的话，所有的一切都会出现问题，所以我们不要对机器学习和物理抓取过于兴奋，机器学习并没有捷径可循，只是从数据当中学习。机器学习意味着从数据当中学习，就是数据和算法，主要是关于数据的，因为和视觉感知相比，没有很多数据可能就是做一些比较简单的、参数比较少的方法。

机器学习的算法必须要对一些典型性的数据进行训练，很多人可能会忽略这一点，应该是没有对数据进行转化，从而使其变成典型的数据。而对于物理抓取和物理操纵现在已经有很多的研究和方法，也有很多的知识，我们不要忘记这些知识，要把这些知识融入到新的基于数据的方法，充分利用它的潜力。

这是我们经常会在KIT谈的事情，就是迁移学习，要把我们在物理世界当中获得的数据和模拟世界当中获得的数据相结合。毕竟仅仅是从模拟的系统当中获得的数据，并不能反映真正的物理世界，为了能够实现我们的工作目标，我们会做一些比较传统的系统参数。基于这些参数产生噪音模型，把这些噪音模型注入到模拟系统当中，即可以反映物理世界，而这样的模拟系统所得出的结果就更加贴近事实，也会对我们有更大的帮助，相信它会使我们向前迈进一步。

最后介绍一下安全问题，大家都希望工业机器人和服务机器人能够跳出它们所处的区隔和人类一起生活，但从安全的角度来说要根据IEC61508的国际标准，需要实现的是故障率非常低，所以就要根据应用确定故障率。机器学习是软件的工作，我们在底层是硬件，中层是对安全非常重要的软件，最上层是一些不安全的重要软件。我们还可以选择的一种方式就是在中间插入蓝色部分，这是通过机器学习，虽然是不安全的重要软件，但它是可以进行机器学习的。如果再往前推进一步，还可以考虑把训练过的模型引入，我们有安全软件，可以在其运行的时候对它进行监控和监测，并及时纠正问题，也就是让这两种软件同时运行。只要蓝色部分能够保持在它的空间内就是没有问题的，因为它的空间被定义为安全，一旦跨越这个范围，橙色部分就会把它拉回来。

与此同时，我们也看到一些新的研究出现，就是将对安全不是最重要的软件嵌入到对安全最重要的软件当中，使得这些非安全必要的软件通过机器学习来学习那些安全软件。首先是需要统计学的证明，就是证明在现实世界当中发生的事情。另外一种方法是通过机器学习的算法进行训练，以建模的方式实现。相信今后几年中会有更多的研究人员去研究这个话题。