60項基于深度學習的SLAM頂會開源方案匯總(上篇)
0. 筆者個人體會
深度學習結(jié)合SLAM是近年來很熱門的研究方向,也因此誕生了很多開源方案。筆者最近在閱讀SLAM綜述論文“A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence”,該綜述參考了255篇SLAM領(lǐng)域的頂會頂刊論文,并且涵蓋了VO、建圖、特征提取、定位、描述子提取、BA優(yōu)化、回環(huán)、數(shù)據(jù)集等多個方向,非常全面。也因此,筆者一直想整理下文章中出現(xiàn)的開源項目,用于在后續(xù)工作中進行對比。本文將對該綜述中出現(xiàn)的開源方案進行整理(2018年以后),并附上摘要和論文信息。雖然可能文章并不是最新的,但每項開源工作都是頂會頂刊,設計思路很巧妙,參考價值很高。由于方案較多,因此將分上下兩節(jié)進行介紹。本節(jié)將介紹里程計、建圖、特征提取、SLAM、回環(huán)方案以及論文中提到的兩個數(shù)據(jù)集。
來源:微信公眾號「3D視覺工坊」
1. 里程計
里程計(VO/VIO/IO/LO/LIO)估計傳感器的自我運動,并將傳感器之間的相對運動整合到全局姿態(tài)中。深度學習方法能夠從傳感器數(shù)據(jù)中提取高級特征表示,從而提供解決里程計問題的替代方法,而不需要手工設計的特征提取器?,F(xiàn)有的基于深度學習的里程計模型可以分為端到端里程計和混合里程計,前者完全基于神經(jīng)網(wǎng)絡,后者是經(jīng)典里程計算法和深度神經(jīng)網(wǎng)絡的組合。根據(jù)訓練階段真實標簽的可用性,端到端系統(tǒng)可以進一步分為有監(jiān)督和無監(jiān)督。
1)GeoNet
標題:GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose作者:Zhichao Yin, Jianping Shi
單位:商湯研究院來源:2018 CVPR
原文鏈接:https://arxiv.org/abs/1803.02276
代碼鏈接:https://github.com/yzcjtr/GeoNet
摘要:我們提出了一個聯(lián)合無監(jiān)督學習框架GeoNet,用于從視頻中估計單目深度、光流和自運動。三個組件通過3D場景幾何的性質(zhì)耦合在一起,通過我們的框架以端到端的方式共同學習。具體來說,通過對單個模塊的預測提取幾何關(guān)系,然后將其組合為圖像重建損失,分別對靜態(tài)和動態(tài)場景部分進行推理。此外,我們提出了一種自適應幾何一致性損失,以增加對異常值和非朗伯區(qū)域的魯棒性,有效地解決了遮擋和紋理模糊問題。在KITTI駕駛數(shù)據(jù)集上的實驗表明,我們的方案在三個任務中都取得了最好的結(jié)果,性能優(yōu)于之前的無監(jiān)督方法,與有監(jiān)督方法相當。

2)Depth-VO-Feat
標題:Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction
作者:Huangying Zhan, Ravi Garg, Chamara Saroj Weerasekera, Kejie Li, Harsh Agarwal, Ian Reid
單位:阿德萊德大學、澳大利亞機器人視覺中心、印度理工學院
來源:2018 CVPR
原文鏈接:https://arxiv.org/abs/1803.03893
代碼鏈接:https://github.com/Huangying-Zhan/Depth-VO-Feat
摘要:盡管基于學習的方法在單視圖深度估計和視覺里程計中顯示出有希望的結(jié)果,但是大多數(shù)現(xiàn)有的方法以監(jiān)督的方式處理任務。最近的單視圖深度估計方法通過最小化光度誤差探索了在沒有完全監(jiān)督的情況下學習的可能性。在本文中,我們探索了使用雙目序列學習深度和視覺里程計。雙目序列的使用使得能夠使用空間(在左右對之間)和時間(向前向后)光度扭曲誤差,并且將場景深度和相機運動約束在共同的真實世界比例中。在測試時,我們的框架能夠從單目序列中估計單視圖深度和雙視圖里程計。我們還展示了如何通過考慮深度特征的扭曲來改善標準光度扭曲損失。我們通過大量實驗表明:(I)針對單視圖深度和視覺里程計的聯(lián)合訓練改進了深度預測,因為對深度施加了額外的約束,并且實現(xiàn)了視覺里程計的有競爭力的結(jié)果;(ii)對于單視圖深度估計和視覺里程計,基于深度特征的扭曲損失改進了簡單的光度扭曲損失。在KITTI駕駛數(shù)據(jù)集上,我們的方法在兩個任務上都優(yōu)于現(xiàn)有的基于學習的方法。

3)CNN-SVO
標題:CNN-SVO: Improving the Mapping in Semi-Direct Visual Odometry Using Single-Image Depth Prediction
作者:Shing Yan Loo, Ali Jahani Amiri, Syamsiah Mashohor, Sai Hong Tang, Hong Zhang
單位:阿爾伯塔大學、馬來西亞普特拉大學
來源:2019 ICRA
原文鏈接:https://arxiv.org/abs/1810.01011
代碼鏈接:https://github.com/yan99033/CNN-SVO
摘要:幀間可靠的特征對應是視覺里程計(VO)和視覺同步定位與地圖創(chuàng)建(V-SLAM)算法的關(guān)鍵步驟。與現(xiàn)有的VO和V-SLAM算法相比,半直接視覺里程計(SVO)具有兩個主要優(yōu)點,這兩個優(yōu)點導致了最先進的幀速率相機運動估計:直接像素對應和概率映射方法的有效實現(xiàn)。根據(jù)單幅圖像深度預測網(wǎng)絡的深度預測,初始化特征位置深度的均值和方差,從而改進SVO映射。通過顯著降低初始化圖點的深度不確定性(即,以深度預測為中心的小方差),好處是雙重的:視圖之間的可靠特征對應和快速收斂到真實深度以便創(chuàng)建新的圖點。我們用兩個室外數(shù)據(jù)集來評估我們的方法:KITTI數(shù)據(jù)集和Oxford Robotcar數(shù)據(jù)集。實驗結(jié)果表明,改進的SVO映射提高了魯棒性和攝像機跟蹤精度。

4)RNN-Depth-Pose
標題:Recurrent Neural Network for (Un-)supervised Learning of Monocular VideoVisual Odometry and Depth
作者:Rui Wang, Stephen M. Pizer, Jan-Michael Frahm
單位:北卡羅來納大學教堂山分校
來源:2019 CVPR
原文鏈接:https://arxiv.org/abs/1904.07087
代碼鏈接:https://github.com/wrlife/RNN_depth_pose
摘要:基于深度學習的單視角深度估計方法最近表現(xiàn)出非常有前景的結(jié)果。然而,這類方法忽略了人類視覺系統(tǒng)中確定深度最重要的特征之一,即運動。我們提出了一種基于學習的多視角稠密深度圖和里程計估計方法,該方法使用循環(huán)神經(jīng)網(wǎng)絡( Recurrent Neural Networks,RNN ),并利用多視角圖像重投影和前后向流一致性損失進行訓練。我們的模型可以在有監(jiān)督甚至無監(jiān)督的模式下進行訓練。它設計用于從輸入幀具有時間相關(guān)性的視頻中估計深度和視覺里程計。然而,它也推廣到單視角深度估計。在KITTI駕駛數(shù)據(jù)集上,我們的方法在基于單視角和多視角學習的深度估計上取得了優(yōu)于現(xiàn)有方法的結(jié)果。

5)DF-VO
標題:Visual Odometry Revisited: What Should Be Learnt?
作者:Huangying Zhan, Chamara Saroj Weerasekera, Jiawang Bian, Ian Reid
單位:阿德萊德大學
來源:2020 ICRA
原文鏈接:https://arxiv.org/abs/1909.09803
代碼鏈接:https://github.com/Huangying-Zhan/DF-VO
摘要:在這項工作中,我們提出了一種單目視覺里程計(VO)算法,該算法利用了基于幾何的方法和深度學習。大多數(shù)現(xiàn)有的具有優(yōu)越性能的VO/SLAM系統(tǒng)是基于幾何的,并且必須針對不同的應用場景進行精心設計。此外,大多數(shù)單目系統(tǒng)都存在尺度漂移問題。最近的一些深度學習作品以端到端的方式學習VO,但這些深度系統(tǒng)的性能仍然無法與基于幾何的方法相提并論。在這項工作中,我們重溫了VO的基礎知識,并探索了將深度學習與核幾何和透視n點(PnP)方法相結(jié)合的正確方法。具體來說,我們訓練兩個卷積神經(jīng)網(wǎng)絡(CNN)來估計單視圖深度和兩視圖光流作為中間輸出。通過深度預測,我們設計了一種簡單但魯棒的幀間VO算法(DF-VO ),該算法優(yōu)于純粹的基于深度學習和基于幾何的方法。更重要的是,我們的系統(tǒng)沒有受到尺度一致的單視圖深度CNN輔助的尺度漂移問題。在KITTI數(shù)據(jù)集上的大量實驗顯示了我們系統(tǒng)的魯棒性,并且詳細的消融研究顯示了我們系統(tǒng)中不同因素的影響。

6)DPFs
標題:Differentiable Particle Filters: End-to-End Learning with Algorithmic Priors
作者:Rico Jonschkowski, Divyam Rastogi, Oliver Brock
單位:柏林技術(shù)大學來源:2018 RSS
原文鏈接:https://arxiv.org/abs/1805.11122
代碼鏈接:https://github.com/tu-rbo/differentiable-particle-filters
摘要:我們提出了可微分粒子濾波器(DPFs):一種具有可學習運動和測量模型的粒子濾波器算法的可微分實現(xiàn)。由于DPF是端到端可區(qū)分的,我們可以通過優(yōu)化端到端狀態(tài)估計性能來有效地訓練它們的模型,而不是像模型準確性這樣的代理目標。DPFs對遞歸狀態(tài)估計的結(jié)構(gòu)進行編碼,其中預測和測量更新對狀態(tài)的概率分布進行操作。這種結(jié)構(gòu)代表了一種算法先驗,該算法先驗提高了狀態(tài)估計問題中的學習性能,同時實現(xiàn)了所學習模型的可解釋性。我們在模擬和真實數(shù)據(jù)上的實驗顯示了具有算法先驗的端到端學習的實質(zhì)性好處,例如將錯誤率降低了約80%。我們的實驗還表明,與長短期記憶網(wǎng)絡不同,DPF以一種與策略無關(guān)的方式學習定位,從而大大提高了泛化能力。
7)RIDI
8)OriNet
9)Pyshoe
2. 建圖
10)RayNet
11)AtlasNet
12)Pixel2Mesh。
……
詳情內(nèi)容可將文章標題復制到微信公眾號「3D視覺工坊」查看原文
7. 結(jié)論
本節(jié)介紹了SLAM綜述論文“A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence”中里程計、建圖、特征提取、SLAM、閉環(huán)檢測、數(shù)據(jù)集相關(guān)的開源項目,下一節(jié)我們將繼續(xù)介紹定位、描述子提取、BA優(yōu)化相關(guān)的開源項目。
本文僅做學術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
3D視覺工坊精品課程官網(wǎng):3dcver.com
1.面向自動駕駛領(lǐng)域的3D點云目標檢測全棧學習路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)
2.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進
3.國內(nèi)首個面向工業(yè)級實戰(zhàn)的點云處理課程
4.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
5.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦
6.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
7.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實戰(zhàn)(cartographer+LOAM +LIO-SAM)
8.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實踐]
9.單目深度估計方法:算法梳理與代碼實現(xiàn)
10.自動駕駛中的深度學習模型部署實戰(zhàn)
11.相機模型與標定(單目+雙目+魚眼)
12.重磅!四旋翼飛行器:算法與實戰(zhàn)
13.ROS2從入門到精通:理論與實戰(zhàn)
14.國內(nèi)首個3D缺陷檢測教程:理論、源碼與實戰(zhàn)
15.基于Open3D的點云處理入門與實戰(zhàn)教程
16.透徹理解視覺ORB-SLAM3:理論基礎+代碼解析+算法改進
17.不斷更新中......
點擊進入—>粉絲交流群
重磅!粉絲學習交流群已成立
交流群主要有3D視覺、CV&深度學習、SLAM、三維重建、點云后處理、自動駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識別、醫(yī)療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產(chǎn)品落地、視覺競賽、車牌識別、硬件選型、ORB-SLAM系列源碼交流、深度估計、TOF、求職交流等方向。
添加小助理微信(dddvisiona),一定要備注:研究方向+學校/公司+昵稱,例如:”3D視覺 + 上海交大 + 靜靜“。請按照格式備注,可快速通過且邀請進群。原創(chuàng)投稿也請聯(lián)系。??