仿人机器人的自主学习之路

文/罗定生

罗定生北京大学机器感知与智能教育部重点实验室副教授

中国电子学会教育工作委员会副秘书长使机器人具备智能，目前对人类来说还是一项巨大挑战，甚至“智能的本质是什么？”这个问题都还没有确切的答案。但是以人的智能行为能力为蓝本，从机器人环境知觉组织、交互与协作、知识获取与推理、自主认知与高级决策等角度展开机器人的智能性研究，正成为现阶段机器人领域研究的主题。设计和制造机器人并使之具有类人的智能，是人类文明进步与科技发展的目标之一。自上世纪中叶第一台可编程机械手及工业机器人问世以来，机器人的研究取得了丰硕的成果，并在包括工业、医学、农业、建筑业、军事等领域得以广泛应用。由于机器人技术综合了多个学科的研究成果，代表了高科技发展的前沿，因此机器人成为体现各国科技实力的一项重要指标，引发了全球研究的热潮。

探索的步伐从未停歇

综观机器人研发的历程，从最早我国西周出现的“歌舞伶人”、古希腊人发明的“自动机(Automata)”，到当下各国研发的各类先进的机器人，人类对机器人的研究经历了从探索概念原型、面向程控机械、注重自主功能到强调高智能水平等发展阶段。

1954年，第一台可编程机器人(机械手)和1959年第一台工业机器人相继问世，标志着真正意义上的机器人诞生；1968年美国斯坦福研究所研制出名为Shakey的第一台自主移动机器人，机器人以独立可移动个体的身份出现在世人面前；1969年日本早稻田大学加藤一郎实验室研制了第一台以双脚走路的人形机器人，与人们长期期待的真正像人一样的机器人梦想实现了接轨。

机器人学涉及众多学科的技术革新以及来自人们生产生活的大量实际需求，促使机器人技术飞速发展。然而，重中之重是机器人行业巨大潜在价值引发了各国政府的强大支持、各大公司及科研院所的产学研整合。正是这些力量的汇聚，架构了一个前景广阔的机器人产业。

随着与机器人学紧密相关各学科的不断突破和迅猛发展，机器人的研发有了坚实的基础。20世纪末，一系列各种各样各具特色的机器人井喷式地涌现。在2015年6月份由美国国防先进项目研究局(DARPA)举办的挑战赛上，登台亮相了一批来自世界各国的先进机器人。几乎每一款先进机器人的研制都有其相对应的强大力量作支撑——美国国防先进项目研究局（DARPA）支持下的波士顿动力研究所（Boston Dynamics）大狗(BigDog)机器人、Petman机器人、美国麻省理工学院（MIT）Atlas机器人与猎豹（Cheetah）机器人、欧盟框架计划（EUFP6, EUFP7, Horizon 2020）支持下的iCub 、日本产业技术综合研究所（AIST）HRP系列机器人、日本本田公司的ASIMO机器人，以及韩国高等科技研究院的HUBO机器人等。

尽管机器人的研发取得了长足的进展，然而，如何使机器人具备智能仍然是一项具有极大挑战的课题。而首先要回答的问题便是：机器人能否具备智能？这是一个哲学性质的命题，对这一命题的完美解答，是以另一个问题的回答为基础的，那就是“智能的本质是什么？”（该问题与物质、宇宙、生命被学者并列为自然界的四大奥秘）。目前看来，在包括脑科学与认知科学在内的众多相关学科取得更大的根本性突破进展之前，该问题是无法予以完美解答的。

与人工智能领域的研究及发展类似，如何使机器人具备智能这一课题的研究，并未因其根本问题未予完美解答而停滞。相反，研究机器人具备高智能性正成为现阶段机器人领域研究的主题。研究者以人的智能行为能力为蓝本，从强调机器人环境知觉组织、复杂场景适应、交互与协作、概念形成与整合、知识获取与推理、自主认知与高级决策、类人智能行为等角度，展开机器人的智能性研究。

双足才是最优选

与轮式、履带式和多足式机器人不同，双足的仿人机器人(Humanoid Robot)作为结构复杂、高度集成的机器人家族成员，由于外形与人相似，不仅更适合于在人的生活和工作环境中与人协同工作，而且更适宜借鉴来自人的智能行为能力的启示，从而成为研究机器人智能性的最佳选择。最典型的代表是在欧盟第6及第7框架计划(EUFP6, EUFP7)以及Horizon 2020计划支持下的iCub机器人。iCub由欧洲10所大学组成的欧洲创新大学协会联合研制，他们认为“仿人的操作是人类认知能力至关重要的因素”。基于这一“具身认知(Embodied Cognition)”思想，研究人员尽最大可能地模仿人的各类传感及结构，历时6年（2004年至2010年）开发了一个外形像2岁儿童iCub。iCub强调“认知能力的学习”，并将其作为开源平台，通过与环境交互和与人交互来获得各类行为能力和认知能力。日本本田公司研发的ASIMO机器人以其移动能力和能实现复杂动作的特点而声名大噪。随后在其版本不断更新的过程中，ASIMO对环境的认知能力不断加强，如复杂办公室环境下灵活避障、与人交互的基本智能行为等。

由于双足机器人是一个固有的非线性不稳定系统。现阶段，复杂多变路面环境下的稳定、快速双足行走，仍然是一个挑战。韩国高等科技研究院HUBO仿人机器人，在2015年6月举行的美国DARPA机器人挑战赛上一举夺魁，其主要技术策略正是对双足行走的规避。HUBO机器人利用在其膝盖和脚踝处装置的滚轮，通过一个跪下行为很容易地实现了，由双足行走到轮式行走的切换，极大地提升了移动速度。这为研究机器人智能行为借鉴其他优势模式的有益性，提供了例证。

自主学习不可或缺

学习能力是系统智能性的必要条件，一个不具备学习能力的系统，当然谈不上“智能”二字。学习的本质是指系统能根据过往经验提升自身性能。机器学习作为人工智能领域的核心内容，是一个持续受到高度关注的热点，特别在“深度学习（Deep Learning）”取得巨大成功之后。

在探索机器人智能性的过程中，强调学习的特性是自然而然的事情。然而，我们想要强调的是，这种学习更应是机器人的自主学习。以机器人获得识别人脸的能力为例，自主学习指的是这样的情形：机器人自己通过自己的眼睛（安装在机器人头上的摄像头），不断观察呈现在它面前的人脸图像，最终形成能正确识别人脸的策略，而且这一过程是增量式的，亦即识别的性能可随着观察的增多而不断地提升（Incremental Learning）；这一过程也是终生性的，像人类一样，在机器人生命期内一直持续（Life-long Learning），而并非仅仅将一个事先训练好的人脸识别模型，装载在“机器人的大脑”（机器人的主机）中便万事大吉了。尽管后一种处理方式可能省时省力，也可能暂时性地具备更好的识别性能，但忽略了机器人在“习得”这一能力过程中所拥有的丰富“副产品”——其他各种可能会在以后转化为知识的有用图像信息。

机器人智能的体现不应是在代替人从事单一工作时的表现，更应是像人类那样能智能地从事各类工作，并应对多种情况。工业机器人引发了社会的“重要”变革，极大地提高了生产力。但那仅仅是“重要”，并不是“彻底的”、“颠覆性的”。真正能够使人类的生产生活发生深刻变革的，只可能是具备“通用智能”（General Intelligence）的机器人。尽管这极具挑战，甚至可能无法实现，但有关机器人智能性的研究正朝着这个目标迈进，而强调机器人的自主学习方式，无疑是一个很好的出发点。

自主学习的三大特点

智能机器人自主学习的基本场景，体现在其各项技能的具体获取过程中。前面提到的机器人自主学习识别人脸正是机器人获得人脸识别这项技能的一个例子，另一个更直接的例子是机器人获得各项运动行为能力的过程。根据机器人系统的构造方式，理论上，在其工作空间内的任意稳定运动行为（不仅包括静态稳定，也包括动态稳定），都可以通过设计一组多关节运动轨迹来实现。比如双足仿人机器人的起立、行走，甚至跳舞、打太极拳等。如果这些行为是根据专家经验事先设计调整而成的，那么这些行为便毫无智能性可言，顶多是个耗时耗力极难维护的体力活。只有这些行为是在自主学习框架下获得的，并且具备前述增量学习（Incremental Learning）和终生学习（Life-long Learning）的特点，才算是机器人具有智能性的一种体现。

智能机器人自主学习的另一个特点，是对过往经验或已有知识的再利用，正如人类那样。这一思路与发展学习(或发育学习，Developmental Learning)的思想是相吻合的。它是对人的学习成长过程的借鉴，因为利用已有经验或知识，学习新事物是人类提升认知能力和行为能力的一个基本特征。

“机器人能否像小孩一样学习？”

事实上，机器人基于自主学习思想获得智能行为能力的过程，正是借鉴了儿童认知发展的过程。早在1950年，以阿兰·图灵（Alan Turing）为代表的许多先驱学者已提出“机器人能否像小孩一样学习？”等类似问题。然而针对这些问题的系统性研究，直到20世纪末才得以展开，以Weng等人于2001年在美国《科学》杂志上发表的“机器人或动物的自主心智发展”为代表。在机器人的已有研究中，有不少工作借鉴了人的行为方式并取得成功，如基于人体运动捕获数据(Human Motion Capture Data, HMCD)的一系列研究、机器人稳定行走研究中的膝盖拉伸(Knee Stretched)及支撑脚横滚策略(Rolling Foot)、抗推搡研究中的踝关节策略(Ankle Strategy)、臀部策略(Hip Strategy)，以及迈步策略(Stepping Strategy)等。

在探索“机器人能否像小孩一样学习？”这个问题之前，首先要弄清楚的问题是“小孩是如何学习的？”。著名心理学家皮亚杰（J. Piaget）关于儿童认知发展理论的重要思想，被公认为20世纪发展心理学上最权威的理论，他将儿童的认知发展分为四个阶段：感知运动阶段 Sensorimotor Stage（0岁至2岁左右）、前运算阶段 Preoperational Stage（2岁至6或7岁）、具体运算阶段 Concrete Operations Stage（6或7岁至11或12岁）、形式运算阶段 Formal Operations Stage（1 1或12岁及以后）。该思想为机器人自主学习各项行为能力，特别是运动行为能力,提供了理论依据和实施借鉴。

从儿童认知发展的过程，我们能够得到一系列智能机器人构建其自主学习框架的重要启示。

第一，完全自主性。我们完全做不到像对待机器人那样，对婴儿各关节赋以角度序列，使其完成某些动作；

第二，家长示教。尽管不能直接干预婴儿的运动行为，家长仍可通过间接辅教，协助婴儿完成特定的运动行为；

第三，主观模仿。无论是家长刻意重复特定运动行为过程，还是婴儿自己的主观观察，都更有助于婴儿获得该运动的行为能力；

第四，环境交互学习。婴儿获得的每一项特定运动行为能力，都是在与实际环境不断交互后才逐渐真正掌握的；

第五，试错模式。在与环境的不断交互过程中，婴儿总能根据环境的反馈对自身行为能力不断加以调节。

如何管理已获得的行为能力

智能机器人自主学习还要面对的一个问题是，如何合理高效地利用已获得的各项行为能力。智能机器人研究的根本目标之一，归根结底是在人类生产生活的实际环境中更好地服务于人类自身。这就需要机器人不仅拥有多项行为能力，而且在任务改变或环境变化时能实时做出恰当响应，即在线改变其运动行为。

一个直观的方法便是“记忆-回调”法。仿人机器人将其已获得的各项特定行为能力，以某种方式记忆存储，当遇到特定任务或环境时，它会迅速地切换或回调出相应的应对行为与能力。然而，由于任务的多样性以及环境的复杂多变性，对于机器人而言，意味着其面临过多项不同的运动行为能力的选择。比如，沿不同坡度的坡面行走可能对应着不同的运动技能（要么是不同的控制模型，要么是同一模型的不同参数），那么，简单的记忆回调便远不能满足要求了。因此，智能机器人如何自主学习获得对已有经验的知识抽取和表示，也成为一个重要的研究课题。知识抽取表示的过程是对已有经验的分析提炼，不仅是智能机器人更好地管理和应用包含这些经验的行为能力的重要途径，同时，也为其进一步基于前文提及的发展学习思想，获得复杂行为能力提供了有力支撑。

智能机器人通过自主学习获得具有切实的类人的智能行为能力，是一个长久的目标，绝非一日之功。然而，前进道路上的每个阶段性进展，在当今机器人技术研发和应用的大热潮下，都可能引发巨大的市场效益，对推动我国乃至世界机器人科技的进步，都将发挥重要的作用。