深度强化学习又立功！AI系统引导无人机成功穿越陌生弯道走廊

财经前瞻网 2019-02-13 11:44

深度强化学习——一种通过使用奖励来驱动代理实现目标的算法训练技术——在基于视觉的导航领域显示出巨大的潜力。科罗拉多大学的研究人员最近发布了一个系统，可以帮助机器人从相机镜头中找到行走路径的方向，苏黎世联邦理工学院的科学家们在1月份的一篇论文中描述了一种机器学习框架，它有助于四足机器人被绊倒时从地面爬起来。

但是，如果将这种AI功能应用于无人机，它的表现会不会和在地面上的机器人一样出色呢?加州大学伯克利分校的一个研究小组开始寻找答案。

在Arxiv预印本服务器上出版的最新一期论文(《通过模拟泛化:将模拟和实际数据集成到深强化学习应用自主飞行》(Generalization through Simulation: Integrating Simulated and Real Data into Deep Reinforcement Learning for Vision-Based Autonomous Flight))，该团队提出了一个“混合”深强化学习算法，该算法将从用于指导四轴飞行器导航地毯走廊中获得数据结合在一起。

论文作者写道:“在这项工作中，我们……的目标是设计一种学习无人机物理行为的转移学习算法。本质上，真实世界的经验是用来学习如何飞行的，而模拟的经验是用来学习如何推广的。”

为什么使用模拟数据?正如研究人员指出的，泛化严重依赖于数据集的大小和多样性。一般来说，数据的数量和多样性越大，性能就越好，获取真实数据既耗时又昂贵。但模拟数据存在一个问题，而且是一个大问题:相对于飞行数据，模拟数据的质量本质上较低——复杂的物理和气流往往建模很差，或者根本就没有建模。

研究人员的解决方案是利用真实世界的数据来训练该系统的动力学，利用模拟数据来学习一种可推广的感知策略。他们的机器学习体系结构由两部分组成:一个从模拟中传输视觉特征的感知子系统，以及一个用真实数据进行反馈的控制子系统。

为了训练模拟策略，该研究小组使用了斯坦福大学的Gibson模拟器，该模拟器包含多种3D扫描环境(研究人员收集了16种环境中的数据)，并使用摄像机模拟了一个虚拟四轴飞行器，其动作直接控制摄像机的姿态。他们拥有1700万个模拟收集的数据点，当所有准备工作就绪后，通过在加州大学伯克利分校科里大厅5楼的一个走廊上运行模拟训练的政策，他们结合了14000个数据点。

仅用一个小时的真实数据，该研究小组就证明了人工智能系统可以引导27克的四轴飞行器Crazyflie 2.0在全新的环境中飞行，并帮助它避免碰撞。指引它在真实世界中运行的唯一窗口是一架单眼照相机;它通过一个无线到USB的加密狗(dongle)与附近的一台笔记本电脑通讯。

研究人员注意到，接受过避碰和导航训练的模型比使用其他方法(如无监督学习和大型图像识别项目的训练技术)表现的更好。此外，该人工智能系统确实出现了失误，不过这通常也是“合理”的——例如，在30%的弯曲走廊试验中，四轴飞行器撞上了一扇玻璃门。

论文作者写道:“我们(的工作)的主要贡献是将大量的模拟数据与少量的现实经验结合起来，训练具有深度强化学习的自主飞行的现实避碰策略。”“我们的方法的基本原理是了解真实世界中这种飞行器的物理特性和动力学，同时从模拟中学习视觉不变性和模式。”

本文来源前瞻网，转载请注明来源。本文内容仅代表作者个人观点，本站只提供参考并不构成任何投资及应用建议。（若存在内容、版权或其它问题，请联系：service@qianzhan.com）