近日，我院杨梦龙团队提出了一种基于强化学习的实时立体匹配方法，相关成果“RLStereo: Real-Time Stereo Matching Based on Reinforcement Learning“发表在图像处理国际顶级期刊IEEE Transactions on Image Processing（IEEE TIP）。IEEE TIP是中国计算机学会CCF A类期刊，也是中科院&JCR一区TOP期刊（2020年的影响因子IF=10.856）。四川大学空天科学与工程学院杨梦龙为论文第一作者，2021级博士生吴方瑞和李炜老师为论文共同作者，四川大学空天科学与工程学院为唯一通讯单位。

近年来，立体视觉技术已经被广泛应用于机器视觉、自动驾驶、无人机导航、三维目标检测识别、虚拟现实和增强现实等领域，而立体匹配作为立体视觉框架的关键步骤，直接决定了整个立体视觉系统的性能。目前多数基于深度学习的立体匹配方法虽然在匹配精度上取得了显著提升，但其复杂的模型结构和先验条件限制了立体匹配的速度和算法实际部署的灵活性。现有基于深度学习的立体匹配方法一般存在两个主要问题：（1）需要提前设置一个视差预测范围，在该范围内进行匹配代价计算、聚合和视差估计，因此缺乏灵活性，且难以同时适用于多种具有不同视差范围的实际应用场景。（2）整个立体匹配过程依赖复杂的网络结构以及大量二维和三维卷积算子，难以同时兼顾匹配的精度和速度。

图1. RLStereo立体匹配框架图

针对上述问题，团队在现有立体匹配深度学习框架的基础上创新性地引入一种基于强化学习迭代优化的匹配策略，框架如图1所示。RLStereo通过训练一个“actor“子网络来迭代优化初始的视差预测结果，其迭代式的匹配优化策略无需穷尽搜索所有的可能视差值，仅需在初始视差图上进行几次迭代搜索就能够输出最终的视差图，因此，该方法拥有更低的时间和内存消耗。RLStereo摒弃了提前设置视差预测范围和构造匹配代价块的常规做法，更能有效地适应具有不同视差范围的各种实际应用场景。

图2. RLStereo迭代优化示意图（第1列为输入，第2~4列分别为前3次迭代的预测视差图和其对应的误差图）

论文链接：https://ieeexplore.ieee.org/document/9614986