Multi-View 3D Object Detection Network for Autonomous Driving

링크: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8100174
분야: 3d 2017
저자: Xiaozhi Chen1, Huimin Ma1, Ji Wan2, Bo Li2, Tian Xia2
1Department of Electronic Engineering, Tsinghua University
2Baidu Inc.
참고: https://adioshun.gitbooks.io/paper-3d-object-detection-and-tracking/content/2017-multi-view-3d-object-detection-network-for-autonomous-driving.html, https://www.youtube.com/watch?v=POqBiiLaslk

Abstract

목표
- 자율 주행 시나리오에서 고정밀 3D 물체 감지
- highly accurate 3D localization and recognition of objects in the road scene.
네트워크
- Multi-View 3D 네트워크 (MV3D) 이용. (sensory-fusion 감각 융합 프레임워크)
- 입력 : LIDAR 포인트 클라우드 + RGB 이미지
- 출력 : Oriented 3D 경계 상자를 예측
- 네트워크 구성
  - 3D 객체 제안 생성 : 효율적으로 3D cadidate box들을 생성
    - 3D 포인트 클라우드의 조감도 표현(bird’s eye view representation) 사용
  - 멀티 뷰 기능 융합(multi-view feature fusion)
특징
- 희소한 3d point cloud를 compact 한 multi-view representation으로 인코딩
- 우리는 여러 뷰의 영역별 feature을 결합하고 서로 다른 경로의 중간 계층 간의 상호 작용을 가능하게 하는 딥 퓨전 체계를 설계합니다.
결과
- 까다로운 KITTI 벤치 마크에 대한 실험을 통해 우리의 접근 방식이 3D 위치 파악 및 3D 감지 작업에서 최첨단보다 약 25 % 및 30 % AP를 능가하는 것으로 나타났습니다. 또한 2D 탐지를 위해 우리의 접근 방식은 LIDAR 기반 방법 중 하드 데이터에 대한 최첨단보다 14.9 % 높은 AP를 얻습니다.
  1.Intro
  
  1.1 기존 연구 소개
센서
- 카메라 : 훨씬 더 자세한 의미 정보(semantic information)를 보존
- 레이저 스캐너 : 하는 동안 정확한 깊이 정보
최근 Lidar point cloud 기반 방식
- 더 정확한 3D 위치를 달성
- LIDAR 포인트 클라우드 + RGB 이미지의 웅합 ⇒ 자율 주행 차에 더 높은 성능과 안전
- Place 3D windows in 3D voxel grids ⇒ point cloud [26, 7]에 점수 매김
- dense box prediction scheme 에서 CNN을 front 뷰 포인트 맵에 적용 [
  
  [26] D. Z. Wang and I. Posner. Voting for voting in online point cloud object detection. In Proceedings of Robotics: Science and Systems, 2015
  [7] M. Engelcke, D. Rao, D. Zeng Wang, C. Hay Tong, and I. Posner. Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks. arXiv:1609.06666, 2016
  [16] B. Li, T. Zhang, and T. Xia. Vehicle detection from 3d lidar using fully convolutional network. In Robotics: Science and Systems, 2016
이미지 기반 방법
- 2D 상자 평가 측면에서 더 높은 정확도
- 이미지 기반 방법 [4, 3]은 일반적으로 먼저 3D 상자 제안을 생성 후 Fast RCNN [9] 파이프라인을 사용하여 영역 기반 인식
  
  [4] X. Chen, K. Kundu, Y. Zhu, A. Berneshawi, H. Ma, S. Fidler, and R. Urtasun. 3d object proposals for accurate object class detection. In NIPS, 2015
  [3] X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urtasun. Monocular 3d object detection for autonomous driving. In CVPR, 2016
결합 방식
- [10, 7] 초기 또는 후기 융합 방식을 사용하여 2D 탐지를 위해 LIDAR와 이미지를 결합
- [참고] 본 논문은 Deep fusion schemes 이용
  
  [10] A. Gonzalez, D. Vazquez, A. Lopez, and J. Amores. Onboard object detection: Multicue, multimodal, and multiview random forest of local experts. In IEEE Transactions on Cybernetics,
  2016
  [7] M. Enzweiler and D. M. Gavrila. A multilevel mixture-of experts framework for pedestrian classification. IEEE Transactions on Image Processing, 20(10):2967–2979, 2011

1.2 본 논문 제안

Multi-View 3D 물체 감지 네트워크 (MV3D)

입력: 멀티 모달 데이터
출력: full 3D extent of objects in 3D space

다중 모드 정보를 활용하는 주요 아이디어는 region-based feature fusion을 수행.
다중 뷰 인코딩 체계 ⇒ 희소 3D 포인트 클라우드에 대한 간결하고 효과적인 표현 얻기

3D proposal network

목적: 포인트 클라우드의 bird’s eye view를 이용하여서 3D 후보 영역을 추천
장점: 3D object 제안의 이점은 3D 공간의 모든 view에 투영 가능

Region-based Fusion Network

목적: 3D 후보영역을 mulitple views에서 Feature map으로 투영하여 region-wise feature들을 추출
특징: 서로 다른 뷰에서 중간 레이어의 상호 작용 가능 (딥 퓨전 접근 방식)

성능 : drop-path training [14] 및 보조 손실(auxiliary loss)과 결합 > 초기/후기 fusion scheme

[14] G. Larsson, M. Maire, and G. Shakhnarovich. Fractalnet:Ultra-deep neural networks without residuals.arXiv:1605.07648, 2016.

다중 뷰 피쳐 표현이 주어지면 네트워크는 3D 공간에서 정확한 3D 위치, 크기 및 방향을 예측하는 oriented(방향있는) 3D box regression를 수행
평가
- 우리는 까다로운 KITTI [8] 객체 탐지 벤치 마크에서 3D 제안 생성, 3D 위치 파악, 3D 탐지 및 2D 탐지 작업에 대한 접근 방식을 평가.
- 3D 제안이 최근의 3D 제안 방법 인 3DOP [4] 및 Mono3D [3]보다 훨씬 우수
- 특히 300 개의 제안에 대해 각각 0.25 및 0.5의 IoU (Intersection -overUnion) 임계 값에서 3D 재현율 99.1 % 및 91 %
- 우리의 접근 방식의 LIDAR 기반 변형은 3D 위치 파악 작업에서 약 25 % 더 높은 정확도
- 3D 물체 감지 작업에서 30 % 더 높은 3D 평균 정밀도 (AP)를 달성
- 다른 모든 LIDAR 기반 방법보다 14.9 % AP 우수한 성능 (KITTI의 하드 테스트 세트에서 2D 감지)
- 이미지와 결합하면 LIDAR 기반 결과보다 더 많은 개선

2. 관련 연구

2.1 3D Object Detection in Point Cloud

대부분의 기존 방법은 복셀 그리드 표현으로 3D 포인트 클라우드를 인코딩합니다.
Sliding Shapes [21]와 Vote3D [25]는 기하학 기능으로 인코딩 된 3D 그리드에 SVM 분류기를 적용
최근 제안된 방법 [22, 6, 15]은 3D convolutions.networks를 사용하여 기능 표현을 개선하지만 계산 비쌈
3D 복셀 표현 외에도 VeloFCN [16]은 포인트 클라우드를 front 뷰에 투영하여 2D 포인트 맵을 얻습니다.
- 그들은 2D 포인트 맵에 완전 컨볼 루션 네트워크를 적용하고 컨볼 션 기능 맵에서 조밀하게 3D 상자를 예측합니다.
[23, 17, 11] 3D 객체 분류를위한 point cloud의 볼륨 및 다중 뷰 표현을 조사 ⇒ 멀티 뷰 피처 맵으로 3D 포인트 클라우드를 인코딩하여 multimodal fusion을 위한 region-based representation 가능

[21] S. Song and J. Xiao. Sliding shapes for 3d object detection in depth images. In ECCV. 2014.
[25] D. Z. Wang and I. Posner. Voting for voting in online point cloud object detection. In Proceedings of Robotics: Science and Systems, 2015.
[22] S. Song and J. Xiao. Deep sliding shapes for amodal 3d object detection in rgb-d images. In CVPR, 2016.
[6] M. Engelcke, D. Rao, D. Zeng Wang, C. Hay Tong, and I. Posner. Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks. arXiv:1609.06666, 2016.
[15] B. Li. 3d fully convolutional network for vehicle detection in point cloud. IROS, 2017.
[16] B. Li, T. Zhang, and T. Xia. Vehicle detection from 3d lidar using fully convolutional network. In Robotics: Science and Systems, 2016.
[23] H. Su, S.Maji, E.Kalogerakis, and E. Learned-Miller. Multiview convolutional neural networks for 3d shape recognition. In ICCV, 2015.
[17] C. R. Qi, M. N. H. Su, A. Dai, M. Yan, and L.Guibas. Volumetric and multi-view cnns for object classification on 3d data. In CVPR, 2016.
[11] V. Hegde and R. Zadeh. Fusionnet: 3d object classification using multiple data representations. CoRR, abs/1607.05695, 2016.

2.2 3D Object Detection in Images

3DVP [27]는 3D 복셀 패턴을 도입하고 ACF 검출기 세트를 사용하여 2D 검출 및 3D 포즈 추정을 수행.
3DOP [4]는 스테레오 이미지에서 깊이를 재구성하고 에너지 최소화 접근 방식을 사용하여 3D 상자 제안을 생성하며, 이는 물체 인식을 위해 R-CNN [9] 파이프 라인에 공급됩니다.
Mono3D [3]는 3DOP와 동일한 파이프 라인을 공유하지만 monocular images에서 3D 제안을 생성합니다.
[30, 31]은 3D 와이어 프레임 모델을 사용하여 객체의 상세한 지오메트리 표현을 소개합니다.
시간 정보를 통합하기 위해 일부 작업 [5, 20]은 움직임과 지상 추정(ground estimation)의 구조를 결합하여 2D 감지 상자를 3D 경계 상자로 lift
이미지 기반 방법은 일반적으로 정확한 깊이 추정 또는 랜드 마크 감지에 의존합니다.
우리의 작업은 LIDAR 포인트 클라우드를 통합하여 3D localization을 개선하는 방법을 보여줍니다.

[27] Y. Xiang, W. Choi, Y. Lin, and S. Savarese. Data-driven 3d voxel patterns for object category recognition. In CVPR, 2015
[4] X. Chen, K. Kundu, Y. Zhu, A. Berneshawi, H. Ma, S. Fidler, and R. Urtasun. 3d object proposals for accurate object class detection. In NIPS, 2015
[3] X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urtasun. Monocular 3d object detection for autonomous driving. In CVPR, 2016
[30] M. Z. Zia, M. Stark, B. Schiele, and K. Schindler. Detailed 3d representations for object recognition and modeling. PAMI, 2013.
[31] M. Z. Zia, M. Stark, and K. Schindler. Are cars just 3d boxes? jointly estimating the 3d shape of multiple objects. In CVPR, pages 3678–3685, 2014.
[5] V. Dhiman, Q. H. Tran, J. J. Corso, and M. Chandraker. A continuous occlusion model for road scene understanding. In CVPR, pages 4331–4339, 2016.
[20] S. Song and M. Chandraker. Joint sfm and detection cues for monocular 3d localization in road scenes. In Computer Vision and Pattern Recognition, pages 3734–3742, 2015

2.3 Multimodal Fusion
자율 주행의 맥락에서 데이터의 여러 양식을 활용하는 작업은 거의 없습니다.
[10]은 2D 보행자 감지를위한 mixture-of-experts framework를 사용하여 이미지, 깊이, 광학 흐름을 결합
[7]은 초기 단계에서 RGB와 깊이 이미지를 융합하고 2D 감지를 위해 포즈 기반 분류기를 훈련시킵니다.
이 논문에서는 FractalNet [14], Deeply Fused Net [26]에서 영감 ⇒ 딥 퓨전 방식을 설계
FractalNet에서 기본 모듈은 기하 급수적으로 증가하는 경로로 네트워크를 구성하기 위해 iteratively repeated
마찬가지로 [26]은 얕은 하위 네트워크와 깊은 하위 네트워크를 결합하여 deeply-fused networks를 구성
논문에서 다른 점
- 논문에서는 각 열에 대해 동일한 기본 네트워크를 사용하고 정규화를 위해 보조 경로 및 손실을 추가
  
  [10] A. Gonzalez, D. Vazquez, A. Lopez, and J. Amores. Onboard object detection: Multicue, multimodal, and multiview random forest of local experts. In IEEE Transactions on Cybernetics,

2016.

[7] M. Enzweiler and D. M. Gavrila. A multilevel mixture-of experts framework for pedestrian classification. IEEE Transactions on Image Processing, 20(10):2967–2979, 2011
[14] G. Larsson, M. Maire, and G. Shakhnarovich. Fractalnet: Ultra-deep neural networks without residuals. arXiv:1605.07648, 2016.
[26] J. Wang, Z. Wei, T. Zhang, and W. Zeng. Deeply-fused nets. arXiv:1605.07716, 2016.

2.4 3D Object Proposals

3D 객체 제안 방법은 2D 객체 제안 [24, 32, 2]과 비슷.
3D 공간에서 대부분의 객체를 다루기 위해 작은 세트의 3D candidate boxes를 생성.
3DOP[4]는 스테레오 point cloud에서 몇 가지 depth features을 설계하여 큰 3D candidate boxes 세트를 채점
Mono3D[3]는 이전에 접지면을 활용하고 일부 분할 기능(segmentation features)을 활용하여 단일 이미지에서 3D 제안을 생성.
3DOP와 Mono3D는 모두 손으로 만든 feature을 사용.
- Deep Sliding Shapes [22]는 더 강력한 딥 러닝 기능을 활용합니다.
  - 그러나 3D 복셀 그리드에서 작동하며 계산 비용이 많이 드는 3D 컨볼루션을 사용합니다.
    논문 제안

포인트 클라우드의 bird’s eye view representation을 도입하고 2D 컨볼루션을 사용 ⇒ 정확한 3D 제안 생성

차원	논문	방법	약점
2D	Selective search[24, 32, 2]
2D	3DOP[4]	depth features(From stereo point cloud	hand-crated features
3D	Mono3D[3]	some segmentation features(From image)	hand-crated features
3D	Deep Sliding Shapes[23]	more powerful deep learning features(?)	computationaly expensive
3D	제안(MV3D)	2D convolutions (from bird's eye view)

3. MV3D 네트워크

MV3D 네트워크는 다음과 같은 다중 뷰 표현을 사용

입력 : 3D 포인트 클라우드, 이미지
먼저 bird’s eye view 지도에서 3D 객체 제안을 생성
region-based representation을 통해 multi-view feature을 deep fuse.
융합된 feature로 category classification, oriented 3D box regression에 사용.(분류 & bbox 찾기)
3.1 3D Point Cloud Representation
기존 작업

일반적으로 3D LIDAR 포인트 클라우드를 3D 그리드 [25, 6] 또는 front view맵 [16]으로 인코딩
- 3D 그리드는 포인트 클라우드의 원시 정보 잘 보존하지만 feature extraction을 위해 복잡한 계산 필요
3D 포인트 클라우드를 bird’s eye view와 front view로 인코딩.
- 간결한 표현을 제안합니다.
  
  A. Bird’s Eye View Representation.
  Bird’s Eye View Representation은 높이, 강도, 밀도(height, intensity and density)로 인코딩됩니다. 투영 된 포인트 클라우드를 0.1m 해상도의 2D 그리드로 이산화합니다.
  - height feature
    - 각 셀에 대해 높이 피처는 셀에있는 포인트의 최대 높이로 계산됩니다.
    - 더 자세한 높이 정보를 인코딩하기 위해 포인트 클라우드는 M 슬라이스로 동일하게 분할됩니다.
    - 각 슬라이스에 대해 높이 맵이 계산되므로 M 개의 높이 맵을 얻습니다.
  - intensity feature(반사)
    - 강도 특성은 각 셀에서 최대 높이를 갖는 점의 반사율 값입니다.
  - density feature
    - 포인트 클라우드 밀도는 각 셀의 포인트 수를 나타냅니다.
  - 3개 feature 처리 방법
    - 특성을 정규화하기 위해 $min(1.0, \frac {log (N + 1)}{log (64)})$으로 계산됩니다. N = 셀의 점 수
    - intensity and density features은 전체 포인트 클라우드에 대해 계산되는 반면 height feature은 M 슬라이스에 대해 계산되므로 전체적으로 bird’s eye view 맵은 (M +2) 채널 features로 인코딩됩니다.
      B. Front View Representation
      Front View Representation은 Bird’s Eye View Representation에 대한 보완 정보를 제공합니다. LIDAR 포인트 클라우드는 sparse하기 때문에 이미지 평면에 투영하면 희소 2D 포인트 맵이 생성됩니다.
      대신 [16] 에서처럼 dense front view map를 생성하기 위해 실린더 평면에 투영합니다. 3D 점 $p = (x, y, z)$가 주어지면 정면도 맵에서 좌표 $p_{fv} = (r, c)$는 다음을 사용하여 계산할 수 있습니다.
      $$c = {\left\lfloor atan2(y, x)/Δθ]\right\rfloor}\\r = {\left\lfloor atan2(z, \sqrt{x^2 + y^2})/Δφ \right\rfloor}, $$
  - Δθ 및 Δφ는 각각 레이저 빔의 수평 및 수직 해상도입니다. 그림 2에서 볼 수 있듯이 height, distance, intensity의 3 채널 feature로 Front View map을 인코딩합니다.
    3.2 3D Proposal Network
    최첨단 2D 물체 탐지기 [18]의 핵심 구성 요소가 된 Faster-RCNN지역 제안 네트워크 (RPN)에서 영감을 받아 먼저 3D object proposal을 생성하는 네트워크를 설계합니다.
입력 : bird’s eye view map
3D 물체 감지에서 bird’s eye view map이 front view/image plane대비 가지는 장점 3가지.

물체는 새에게 투영 될 때 물리적 크기를 유지합니다. 눈으로 보기 때문에 크기 차이가 작습니다.
bird’s eye view는 다른 공간을 차지하므로 가림occlusion 현상 제거.
도로 현장에서 일반적으로 object는 지면에 놓여 있으며 정확한 3D 경계 상자를 얻으려면 위에서 내려다 보는 것이 더 중요합니다. 따라서, 3D 위치 예측이 더 가능합니다.
bird’s eye view map이 주어지면 네트워크는 3D 이전 상자 세트에서 3D 상자 제안을 생성합니다.

각 3D 상자는 LIDAR 좌표계에서 3D 상자의 중심과 크기 (미터 단위) 인 $(x, y, z, l, w, h)$로 매개 변수화됩니다.
- (x, y)는 bird’s eye view feature map의 다양한 위치,
- z는 camera height 와 object height를 기준으로 계산할 수 있습니다.
각 3D 사전 상자에 대해 해당 조감도 앵커 $(x_{bv}, y_{bv}, l_{bv}, w_{bv})$는 $(x, y, l, w)$ 이산화하여 얻을 수 있습니다. 우리는 훈련 세트에서 Ground Truth 객체 크기를 클러스터링하여 N 개의 3D 사전 상자를 설계합니다.
- 차량 감지의 경우 이전 상자의 $(l, w)$는 {(3.9, 1.6), (1.0, 0.6)}의 값을 취하고 높이 h는 1.56m로 설정
bird’s eye view 앵커를 90도 회전하여 N = 4 개의 이전 상자를 얻습니다.
제안 생성시 방향 회귀를 수행하지 않는 반면 다음 예측 단계로 두었습니다.
3D 상자의 방향은 대부분의 도로 장면 개체의 실제 방향에 가까운 {0◦, 90◦}로 제한됩니다.
이 단순화는 제안 회귀 교육을 더 쉽게 만듭니다.
A. Upsampling / Deconvolution*

0.1m의 disretization 해상도로 bird’s eye view의 object boxes는 5 ~ 40 픽셀만 차지합니다.

이러한 초소형 물체를 탐지하는 것은 여전히 딥 네트워크에서 어려운 문제입니다.
해결책

고해상도 이미지를 입력으로 사용 ⇒ 더 많은 계산 필요
[1]에서와 같이 기능 맵 업 샘플링을 선택.
- 제안 네트워크의 마지막 convolution layer 이후에 2x 이중 선형 업 샘플링을 사용합니다.
  논문 구현에서 front-end convolutions은 3 개의 풀링 작업, 즉 8x 다운샘플링 만 진행합니다.
  따라서 2x 디컨볼루션과 결합하여 제안 네트워크에 제공되는 feature map은 bird’s eye view input 입력에 대해 4x 다운샘플링됩니다.

B. 3D box regression
RPN [18]과 유사하게 $t = (Δx, Δy, Δz, Δl, Δw, Δh)$로 회귀하여 3D box 회귀를 수행합니다.

$(Δx, Δy, Δz)$는 앵커 크기로 정규화 된 중심 오프셋
$(Δl, Δw, Δh)$는 $Δs = log \frac{s_{GT}} {s_{anchor}}, s ∈ {{l, w, h}}$로 계산
multi-task loss을 사용하여 동시에 object/background를 분류하고 3D 상자 회귀를 수행합니다.
특히 "objectness"손실에는 클래스 엔트로피를 사용하고 3D 상자 회귀 손실에는 Smooth $l_1$ [9]를 사용합니다.
상자 회귀 손실을 계산할 때 배경 앵커는 무시됩니다.
훈련 중에 anchors 와 ground truth bird’s eye view boxes 사이의 IoU 겹침을 계산합니다. 앵커는 겹침이 0.7보다 크면 양수로, 겹침이 0.5보다 작으면 음으로 간주됩니다. 사이에 겹치는 앵커는 무시됩니다.
LIDAR 포인트 클라우드는 희소하므로 많은 빈 앵커가 발생하므로 계산을 줄이기 위해 학습 및 테스트 중에 모든 빈 앵커를 제거합니다.
이는 occupancy map에 대한 적분 이미지를 계산하여 얻을 수 있습니다.
마지막 convolution feature map,의 각 위치에 있는 비어 있지 않은 각 앵커에 대해 네트워크는 3D 상자를 생성합니다.
중복성을 줄이기 위해 조감도 상자에 NMS (Non-Maximum Suppression)를 적용합니다.
[22]와 달리 3D NMS를 사용하지 않았습니다. 물체는 지면에서 다른 공간을 차지해야하기 때문입니다. NMS에 0.7의 IoU 임계 값을 사용합니다. 상위 2000 개의 상자는 훈련 중에 보관되지만 테스트에서는 300 개의 상자만 사용합니다.
3.3. Region-based Fusion Network
역할
combine features from multiple views
jointly classify object proposals and do oriented 3D box regression
A. Multi-View ROI Pooling.*
목적 : 여러 view/modalities에서 오는 데이터들을 same length 벡터로 맞추기 (보통 해상도가 다르므로, ROI pooling [9] 사용)
생성 된 3D 제안이 주어지면 3D 공간의 모든 뷰에 투영 할 수 있습니다. 우리의 경우에는 조감도 (BV), 정면도 (FV), 이미지 평면 (RGB)의 세 가지 뷰에 투영합니다. 3D 제안 $p_{3D}$가 주어지면 다음을 통해 각 뷰에 대한 ROI를 얻습니다.
$$ROI_v = T_{3D→v}(p_{3D}), v ∈ {BV, FV, RGB}$$
여기서 $T_{3D → v}$는 LIDAR 좌표계를 조감도, 정면도, 각각 이미지 평면입니다. 각 뷰의 프런트 엔드 네트워크에서 input feature map x가 주어지면 ROI 풀링을 통해 고정 길이 feature $f_v$를 얻습니다.
$$ f_v = R(x, ROI_v), v \in{BV, FV, RGB}$$
B. Deep Fusion.*

서로 다른 Feature의 정보를 합치는 방법
기존 - 초기 융합 [1] 또는 후기 융합 [22, 12]을 사용합니다.
제안 - [14, 26]에서 영감을 받아 멀티 뷰 feature를 계층적으로 융합하는 딥 퓨전 접근 방식을 사용합니다.
Early fusion
L 계층이있는 네트워크의 경우 초기 퓨전은 입력 단계에서 여러 뷰의 기능 ${f_v}$를 결합합니다.
$$fL = H_L (H_{L−1} (··· H_1 (f_{BV} ⊕ f_{FV} ⊕ f_{RGB})))$$
${H_l, l = 1, ..., L}$은 특성 변환 함수이고 ⊕는 조인 연산 (예 : 연결, 합산)입니다.
late fusion
반대로 후기 융합은 별도의 하위 네트워크를 사용하여 특성 변환을 독립적으로 학습하고 예측 단계에서 출력을 결합합니다.
$$f_L =(H^{BV}_L (··· H^{BV}_1 (f_{BV} )))⊕\\ (H^{FV}_L (··· H^{FV}_1 (f_{FV} )))⊕\\ (H^{RGB}_L (··· H^{RGB}_1 (f_{RGB})))$$
deep fusion
다른 뷰에서 중간 레이어의 기능간에 더 많은 상호 작용을 가능하게하기 위해 다음과 같은 심층 융합 프로세스를 설계합니다.
$$f_0 =f_{BV} ⊕ f_{FV} ⊕ f_{RGB}\\ f_l =H^{BV}_ l (f_{l−1}) ⊕ H^{F V}_ l (f_{l−1}) ⊕ H^{RGB}_ l (f_{l−1}),\\ ∀l = 1, ··· , L$$
droppath 훈련과 결합 할 때 더 유연하기 때문에 deep fusion을위한 join 연산에 요소별 평균을 사용합니다 [14].
C. Oriented 3D Box Regression
멀티 뷰 네트워크의 융합 feature을 고려할 때 3D 제안에서 지향성 3D 상자로 회귀합니다.
특히 회귀 대상은 3D 상자의 8 개 모서리입니다.
- $t = (Δx_0, ···, Δx_7, Δy_0, ···, Δy_7, Δz_0, ···, Δz_7).$
- 제안 상자의 대각선 길이로 정규화 된 코너 오프셋으로 인코딩됩니다.
- 이러한 24D 벡터 표현은 지향성 3D 상자를 표현하는 데 중복되지만 이 인코딩 방식이 중심 및 크기 인코딩 방식보다 더 잘 작동
  3D 상자 회귀는 axis-aligned 3D boxes로 회귀하는 [22]와 다릅니다. 우리 모델에서는 예측된 3D 상자 모서리에서 물체 방향을 계산할 수 있습니다.
  multitask loss
  우리는 다중 작업 손실을 사용하여 객체 범주와 지향 3D 상자를 공동으로 예측합니다. 제안 네트워크에서와 같이 카테고리 손실은 교차 엔트로피를 사용하고 3D 상자 손실은 부드러운 $l_1$을 사용합니다.
  훈련 중
- bird's eye view 상자의 IoU 중첩을 기반으로 긍정 / 부정 ROI가 결정됩니다.
- 3D 제안은 조감도 IoU 겹침이 0.5 이상이면 양수로 간주되고 그렇지 않으면 음수로 간주됩니다.
  추론하는 동안
- 3D 경계 상자 회귀 후 3D 상자에 NMS를 적용합니다.
- 3D 상자를 조감도에 투영하여 IoU 중첩을 계산합니다. IoU 임계 값 0.05를 사용하여 중복 된 상자를 제거하여 개체가 조감도에서 동일한 공간을 차지할 수 없도록합니다.
D, Network Regularization*
region-based fusion network에 사용된 두가지 Regularization 기법들
drop-pathtraining [14]
- 반복 할 때마다 50 % 확률로 전역 드롭 경로 또는 로컬 드롭 경로를 수행하도록 무작위로 선택합니다.
- 글로벌 드롭 경로가 선택되면 동일한 확률로 세 개의view에서 단일view를 선택합니다.
- 로컬 드롭 경로를 선택하면 각 조인 노드에 입력 된 경로가 50 % 확률로 무작위로 삭제됩니다.
  각 join node에 대해 적어도 하나의 입력 경로가 유지되도록합니다.
auxiliary losses.
- 각 뷰의 표현 능력을 더욱 강화하기 위해 네트워크에 보조 경로와 손실을 추가합니다. 그림 4에서 볼 수 있듯이 보조 경로는 메인 네트워크와 동일한 수의 레이어를 가지고 있습니다.
- 보조 경로의 각 layer은 주 네트워크의 해당 계층과 가중치를 공유합니다.
- same multi-task loss 사용, 즉 분류 손실과 3D 상자 회귀 손실을 사용하여 각 보조 경로를 역 전파합니다. 보조 손실을 포함한 모든 손실에 균등하게 가중치를 둡니다.
- 추론하는 동안 보조 경로가 제거됩니다. (예측시에는 auxiliary paths사용 안함)
  3.4. Implementation
A. Network Architecture.*
In our multi-view network, each view has the same architecture.
기본은 VGG-16[19]이고, 몇가지 부분을 수정 하였다.
Channels are reduced to half of the original network.
To handle extra-small objects, we use feature approximation to obtain high-resolution feature map.
- In particular, we insert a 2x bilinear upsampling layer before feeding the last convolution feature map to the 3D Proposal Network.
- Similarly, we insert a 4x/4x/2x upsampling layer before the ROI pooling layer for the BV/FV/RGB branch.
  - We remove the 4th pooling operation in the original VGG network, thus the convolution parts of our network proceed 8x downsampling.
  - In the muti-view fusion network, we add an extra fully connected layer f c8 in addition to the original f c6 and fc7 layer.
    초기 파라미터는 VGG-16 network pretrained on ImageNet으로 세팅
    Despite our network has three branches, the number of parameters is about 75% of the VGG-16 network.
    The inference time of the network for 이미지당 0.36s (on a Titan X GPU)
B. Input Representation.*
정면도 (시야 약 90 °)의 객체에 대한 주석 만 제공하는 KITTI의 경우 [0, 70.4] × [-40, 40] 미터 범위의 포인트 클라우드를 사용합니다.
또한 이미지 평면에 투영 될 때 이미지 경계를 벗어난 점을 제거합니다.
For bird’s eye view, 이산화 해상도가 0.1m로 설정되어 있으므로 조감도 입력 크기는 704 × 800입니다.
KITTI는 64 빔 Velodyne 레이저 스캐너를 사용하기 때문에 전면 뷰 포인트에 대한 64x512 맵을 얻을 수 있습니다.
RGB 이미지는 최대 크기가 500이되도록 업스케일됩니다.
C. Training.*
네트워크는 end to end 방식으로 훈련됩니다.
각 미니 배치에 대해 1 개의 이미지를 사용하고 128 개의 ROI를 샘플링하여 ROI의 약 25 %를 양수로 유지합니다. 100,000 회 반복에 대해 0.001의 학습률로 SGD를 사용하여 네트워크를 훈련합니다.
그런 다음 학습률을 0.0001로 줄이고 또 다른 20K 반복을 훈련합니다.
LIDAR 포인트 클라우드 + RGB 이미지 자율 주행을위한 멀티 뷰 3D 물체 감지 네트워크
late fusion Schemes : [8] M. Enzweiler 및 D. M. Gavrila. 보행자 분류를위한 다단계 혼합 전문가 프레임 워크. IEEE Transactions on Image Processing, 20 (10) : 2967–2979, 2011-Early Fusion Scheme. : [11] A. Gonzalez, D. Vazquez, A. Lopez 및 J. Amores. 온보드 객체 감지 : 현지 전문가의 멀티 큐, 멀티 모달 및 멀티 뷰 랜덤 포레스트. 사이버네틱스에 대한 IEEE 트랜잭션에서, 2016
Chen et al. (2016c)는 물체 감지를 위해 LiDAR 레이저 범위 데이터와 RGB 이미지를 결합합니다. 이들의 접근 방식에서 희소 포인트 클라우드는 컴팩트 멀티 뷰 표현을 사용하여 인코딩되고 제안 생성 네트워크는 포인트 클라우드의 조감도 표현을 활용하여 3D 후보를 생성합니다.
마지막으로, 여러 뷰의 영역 별 feature을 딥 퓨전 체계와 결합합니다.
4. Experiments
까다로운 KITTI 물체 감지 벤치 마크 [8]에서 MV3D 네트워크를 평가합니다. 데이터 세트는 학습용 이미지 7,481 개, 테스트 용 이미지 7,518 개를 제공합니다. 테스트 서버는 2D 탐지 만 평가하므로 [4]에 따라 훈련 데이터를 훈련 세트와 검증 세트로 분할합니다. 각각은 전체 훈련 데이터의 약 절반을 포함합니다. 검증 세트에서 3D 상자 평가를 수행합니다. KITTI는 심층 네트워크 기반 접근 방식에 충분한 자동차 인스턴스를 제공하므로 자동차 카테고리에 대한 실험에 집중합니다. KITTI 설정에 따라 쉬움, 보통, 어려움의 세 가지 난이도를 평가합니다
A.Metrics.**
3D 상자 recall을 메트릭으로 사용하여 3D 개체 제안을 평가합니다. 2D 상자 recall [13]과 달리 두 입방체의 IoU 중첩을 계산합니다. *cuboids는 축과 정렬하는 데 필요하지 않습니다. 즉, 3D 상자의 방향이 될 수 있습니다. 평가에서 3D IoU 임계 값을 각각 0.25 및 0.5로 설정했습니다.
최종 3D detection 결과의 경우 두 가지 메트릭을 사용하여 3D 현지화 및 3D 경계 상자 감지의 정확도를 측정합니다. 3D 현지화를 위해 3D 상자를 지표면 (즉, 조감도)에 투영하여 지향성 bird’s eye view boxes를 얻습니다.
bird’s eye view boxes에 대한 평균 정밀도 (APloc)를 계산합니다.
3D 경계 상자 감지의 경우 평균 정밀도 (AP3D) 메트릭을 사용하여 전체 3D 경계 상자를 평가합니다.
- bird’s eye view boxes와 3D 상자 모두 방향이 지정되어 있으므로이 두 메트릭에서 객체 방향이 암시적으로 고려됩니다. 또한 3D 상자를 이미지 평면에 투영하여 2D 감지 성능을 평가합니다.
평균 정밀도 ($AP_{2D}$)도 메트릭으로 사용됩니다. KITTI 규칙에 따라 IoU 임계 값은 2D 상자에 대해 0.7로 설정됩니다.
B.Baslines.*
이 작업은 3D 물체 감지를 목표로하기 때문에 주로 LIDAR 기반 방법인 VeloFCN [16], Vote3Deep [6] 및 Vote3D [25]와 이미지 기반 방법 3DOP [4] 및 Mono3D [3]에 대한 접근 방식을 비교합니다. .
공정한 비교를 위해 우리는 접근 방식의 두 가지 변형,
조감도와 전면보기를 입력으로 사용하는 순수 LIDAR 기반 변형 (BV + FV)과 LIDAR
RGB 데이터를 결합하는 다중 모드 변형 (BV + FV + RGB).
3D 상자 평가의 경우 VeloFCN, 3DOP 및 Mono3D가 검증 세트에 대한 결과를 제공하므로 비교합니다. 공개적으로 사용 가능한 결과가없는 Vote3Deep 및 Vote3D의 경우 테스트 세트에 대한 2D 감지 만 비교합니다.
C. 3D Proposal Recall*

3D 박스 리콜은 그림 5에 나와 있습니다. 300 개의 제안을 사용하여 리콜을 IoU 임계 값의 함수로 플로팅합니다. 우리의 접근 방식은 모든 IoU 임계 값에서 3DOP [4] 및 Mono3D [3]를 훨씬 능가합니다. 그림 5는 또한 각각 0.25 및 0.5의 IoU 임계 값에서 제안 번호의 함수로 3D 리콜을 보여줍니다. 300 개의 제안 만 사용하여 우리의 접근 방식은 IoU 임계 값 0.25에서 99.1 %, IoU 0.5에서 91 % 회수를 얻습니다. 반대로 0.5의 IoU를 사용할 때 3DOP가 달성 할 수있는 최대 재현율은 73.9 %에 불과합니다. 큰 차이는 이미지 기반 방법에 비해 LIDAR 기반 접근 방식의 이점을 시사합니다.
D. 3D Localization.*
3D 현지화 평가를 위해 0.5 및 0.7의 IoU 임계 값을 사용합니다. 표 1은 KITTI 검증 세트의 APloc을 보여줍니다. 예상대로 모든 LIDAR 기반 접근법은 스테레오 기반 방법 3DOP [4] 및 단안 방법 Mono3D [3]보다 성능이 우수합니다. LIDAR 기반 접근 방식 중 우리의 방법 (BV + FV)은 IoU 임계 값 0.5에서 약 25 % APloc보다 VeloFCN [16]을 능가합니다. IoU = 0.7을 기준으로 사용할 때, 우리의 개선은 훨씬 더 커져 쉬움, 보통 및 어려운 체제에서 ~ 45 % 더 높은 APloc을 달성합니다. RGB 이미지와 결합하면 접근 방식이 더욱 향상됩니다. 그림 6에서 몇 가지 예의 현지화 결과를 시각화합니다
E. 3D Object Detection.*

3D 중첩 기준의 경우 LIDAR 기반 방법에 대해 0.5 및 0.7의 3D IoU에 중점을 둡니다. 이러한 IoU 임계 값은 이미지 기반 방법에 대해 다소 엄격하므로 평가를 위해 0.25의 IoU도 사용합니다. 표 2에서 볼 수 있듯이, 우리의“BV + FV”방법은 0.5의 IoU를 사용할 때 VeloFCN보다 약 30 % 더 높은 AP3D를 얻어 중간 설정에서 87.65 % AP3D를 달성합니다. IoU = 0.7 기준으로 멀티 모달 접근 방식은 쉬운 데이터에서 여전히 71.29 % AP3D를 달성합니다. 중간 설정에서 IoU = 0.25를 사용하여 3DOP로 얻을 수있는 최상의 AP3D는 68.82 %이며, 우리의 접근 방식은 IoU = 0.5를 사용하여 89.05 % AP3D를 달성합니다. 일부 3D detectioin 결과는 그림 6에 시각화되어 있습니다.
F. Ablation Studies.*
먼저 딥 퓨전 네트워크를 초기 / 후기 퓨전 접근 방식과 비교합니다. 문헌에서 일반적으로 사용되는 것과 같이 조인 작업은 초기 / 후기 융합 체계에서 연결로 인스턴스화됩니다. 표 3에서 볼 수 있듯이 초기 및 후기 융합 접근 방식은 성능이 매우 유사합니다. 보조 손실을 사용하지 않고 깊은 융합 방법은 초기 및 후기 융합 접근법에 비해 ~ 0.5 % 개선을 달성합니다. auxiliary loss을 추가하면 딥 퓨전 네트워크가 약 1 % 향상됩니다.
다양한 뷰에서 feature의 기여도를 연구하기 위해 조감도 (BV), 전면 뷰 (FV) 및 RGB 이미지 (RGB)의 다양한 조합을 실험합니다. 3D 제안 네트워크는 모든 변형에 대해 동일합니다. 자세한 비교는 표 4에 나와 있습니다. single view as input 경우, bird’s eye view feature은 최상의 성능을 발휘하고 front view feature은 최악의 성능을 발휘합니다. 두보기 중 하나를 결합하면 항상 개별보기보다 향상 될 수 있습니다. 이것은 다른 관점의 기능이 상호 보완 적이라는 가정을 정당화합니다. 세 가지보기의 기능을 통합 할 때 최상의 성능을 얻을 수 있습니다.
G. 2D Object Detection.*
마지막으로 KITTI 테스트 세트에서 2D 감지 성능을 평가합니다. 결과는 표 5에 나와 있습니다. LIDAR 기반 방법 중 "BV + FV"접근 방식은 최근에 제안 된 Vote3Deep [6] 방법보다 하드 설정에서 AP2D 14.93 %를 능가합니다. 전반적으로 이미지 기반 방법은 일반적으로 2D 감지 측면에서 LIDAR 기반 방법보다 성능이 좋습니다. 이는 이미지 기반 방법이 2D 상자를 직접 최적화하는 반면 LIDAR 기반 방법은 3D 상자를 최적화하기 때문입니다. 우리의 방법이 3D 상자를 최적화 함에도 불구하고 최첨단 2D 감지 방법과 비교할 때 경쟁력있는 결과를 얻습니다.
H. Qualitative Results.*
그림 6에서 볼 수 있듯이 우리의 접근 방식은 스테레오 기반 방법 3DOP [4] 및 LIDAR 기반 방법 VeloFCN [16]에 비해 훨씬 더 정확한 3D 위치, 크기 및 방향을 얻습니다.
5. Conclusion
우리는 도로 현장에서 3D 물체 감지를위한 멀티 뷰 감각 융합 모델을 제안했습니다. 우리 모델은 LIDAR 포인트 클라우드와 이미지를 모두 활용합니다. 3D 제안을 생성하고 기능 추출을 위해 여러 뷰에 투영하여 다양한 양식을 조정합니다. 다시 점 정보를 심층적으로 융합하고 지향적 인 3D 상자 회귀를 수행하기 위해 지역 기반 융합 네트워크가 제공됩니다. 우리의 접근 방식은 KITTI 벤치 마크에서 3D 위치 파악 및 3D 감지 작업에서 기존 LIDAR 기반 및 이미지 기반 방법보다 훨씬 뛰어납니다 [8]. 3D 감지에서 얻은 2D 상자 결과는 최첨단 2D 감지 방법과 비교하여 경쟁력있는 성능을 보여줍니다.