双目图像超分辨率挑战赛(Stereo Image Super-Resolution Challenge)作为NTIRE研讨会的一部分与 CVPR 2022 一起举办,本次大赛的目标是用低分辨率的一对左右视角的立体图像来重建高分辨率的立体图像。与单张图像的超分辨率任务不同,双目超分辨率可以利用场景的左右两个视角提供的互补信息,从而提升图像恢复质量。
近年来,视觉感知技术逐渐应用于物流仓储智慧化的方案当中,对于其精准度的要求也日益提高。通过AI尖端算法对于视觉感知能力的加持,能够保障视觉SLAM导航AMR机器人的智能避障能力,提升视觉信息复核的准确率和工作效率。
在实际仓储场景中,实现物流自动化执行的第一步就是精准捕捉目标信息,且仓储空间中光线较弱、不稳定等环境因素也会影响视觉感知的准确度,任何细微的差别都可能严重影响货物调取结果。
旷视研究院基于双目超分辨率任务的夺冠算法,未来有希望应用于更多信息自动识别和数据采集解决方案中,如在图像预处理过程中,即视觉识别前先对图像进行分析和矫正,优化识别成像结果,从而提升视觉识别的精准度。
以下是旷视夺冠算法的详细介绍:
(内容源自旷视研究院)
对于双目超分辨率任务,最直接的想法是将左右视角的两张图片独立的恢复成清晰图像,互不影响。而我们的工作,Nonlinear Activation Free Network for Image Restoration [1](以下简称:NAFNet)在单张图像恢复领域提供了一个简单且强有力的基线。其效果如下图所示:
受此启发,我们直接利用 NAFNet 进行单张图像的超分辨率重建。虽然已经能取得不错的性能,但是这样的做法忽略了双目任务的特殊性:没有充分利用两个视角提供的互补信息。为此,我们在使用 NAFNet 分别提取左右两个视角的单图像特征之外,引入了立体交叉注意力模块(Stereo Cross Attention Module, 以下简称: SCAM)来融合左右视角的图像特征。我们称该方法为 NAFSSR: Stereo Image Super-Resolution Using NAFNet (以下简称:NAFSSR),其总体结构如下图所示:
其中 NAFBlock 直接采用了 NAFNet 的模块,而 SCAM 细节如下图所示:
图3. SCAM
它用于融合 NAFNet 提取到的左右视图特征。
在模型设计之外,我们发现训练/测试时的统计值分布不一致问题(对于该问题,可以参考我们的另外一项工作,TLSC [2])在双目超分辨率任务中依然存在,会降低图像恢复的质量,所以我们采用了 TLSC 以缓解该不一致问题。
图4. NAFSSR 的在客观指标上和现有先进方法的对比
可视化结果如下图所示:
通过上图呈现的输入、输出图像对比,不难发现图像的精密度和清晰度都得到了大幅的提高。
本次旷视研究院基于双目超分辨率任务的夺冠算法,是旷视科研实力的体现,也将成为赋能智慧仓储物流的技术之一。旷视机器人将持续基于领先的科研水平,进一步探索和丰富前沿技术在实际物流场景中的应用。
[1] Simple Baselines for Image Restoration
[2] Revisiting Global Statistics Aggregation for Improving Image Restoration