鱼羊发自凹非寺

量子位报道 | 公众号 QbitAI

在自动驾驶领域，谷歌Waymo无疑是标杆一样的存在。

现实世界中，Waymo已经行驶了1000多万英里（约1600万公里），而在模拟驾驶中，行驶里程更是达到100亿英里。

作为第一家提供自动驾驶出租车服务的自动驾驶汽车公司，Waymo早在去年12月，就落地美国亚利桑那州凤凰城。但历经大半年，Waymo One仍未能开出凤凰城，商业化进展远不如公众预期。

商业化道路走得艰难，与技术进展息息相关，现在，DeepMind也出手了。

强强联手

能够可靠引导无人驾驶汽车的AI模型需要无限次的测试和微调，对算力也有很高的要求。

为了提高AI算法训练的有效性和效率，Waymo正在与DeepMind展开合作，DeepMind在博文中提到，这次，他们受到了达尔文进化论的启发。

Waymo的工程师解释，AI算法通过反复测试实现自我提升，这一过程就是不断尝试并根据反馈进行调整。这样，模型的表现在很大程度上是取决于训练方案的。

找到最佳方案通常需要依靠研究人员和工程师丰富的经验。他们会精心挑选训练中的AI模型，剔除表现最差的模型并释放资源，从头开始训练新算法。

手动调整自然可以快速产生更好地结果，但这太过依靠人力了。

于是，DeepMind设计了一种基于进化竞争（Population Based Training）的自动优化超参数的方法。

基于进化竞争

基于进化竞争，简称PBT，结合了手动调整和随机搜索的优点。该方法从随机变量（超参数）开始，训练多个机器学习模型。

模型会被定期评估，并以进化的方式相互竞争，表现不佳的模型就会被“后代”（变量发生些许变化的表现更好的成员的副本）取代。

PBT不需要从头开始重新训练，因为每个后代都会继承其父网络的状态，并且在整个训练过程中积极地更新超参数。

也就是说，PBT能将大部分资源用于训练良好的超参数值。

但是，PBT也并不完美。它倾向于优化当前的结果而不考虑长期效应，这不利于后期发力的AI模型。

DeepMind的研究人员考虑到了这一点，他们为此训练了更多群体，并创建了称为利基（niches）的子群体，它们的算法仅允许它们进行内部竞争。最后，这个子群体通过提供更多独特模型在竞争中获得优势，这就鼓励了多样性。

DeepMind和Waymo将PBT应用于行人，自行车和摩托车驾驶员识别任务，目的是调查是否可以提高召回率（确定的障碍物在场景障碍物总数上的比例）和精度（检测到的障碍物的一部分实际上是障碍而不是误报）。

最终，他们试图训练单一的AI模型，以保持超过99％的召回率，同时减少误报。

Waymo报告说，这些实验为评估真实世界模型的鲁棒性提供了一个“现实的”框架，这反过来又为PBT算法的选择竞争提供了依据。

实验表明，进化竞争需要快速评估的支持，PBT模型每15分钟就要评估一次。Google数据中心的数百分布式机器的并行化使这一需求成为可能。

Waymo还说，PBT算法能够实现更高的精度，并且减少24%的误报，同时也能保持较高的召回率。

此外，PBT所需的训练时间和计算资源仅为原来的一半。根据Waymo的说法， PBT已被直接纳入Waymo的技术基础架构。

传送门

DeepMind博客：

https://deepmind.com/blog/how-evolutionary-selection-can-train-more-capable-self-driving-cars/

— 完 —

量子位 · QbitAI

վ’ᴗ’ ի 追踪AI技术和产品新动态

戳右上角「+关注」获取最新资讯↗↗

如果喜欢，请分享or点赞吧~比心❤