[논문 리뷰] DeepLab V3+ model

해당 블로그는 공부를 목적으로 https://kuklife.tistory.com/121 블로그를 필사하며 쓴 글입니다.

paper Link: https://arxiv.org/pdf/1802.02611.pdf

###########################

DeepLab V3+ 논문은 2018년 8월 경 구글에서 작성된 논문입니다.

Semantic Segmentation을 해결하기 위한 방법론은 여러 가지가 존재하지만 그중 DeepLab 시리즈는 여러 Segmentation model 중 서능이 상위권에 많이 포진되어 있는 model들입니다.

그중에서도 가장 성능이 높으며 DeepLab시리즈 중 가장 최근에 나온 DeepLab V3+에 대해서 살펴보겠습니다.

전체적으로 DeepLab은 semantic segmentation을 잘 해결하기 위한 방법으로 atrous convolution을 적극적으로 활용할 것을 제안합니다. 전체적인 흐름을 보기 위해 아래의 시리즈 별로 어떤 변화가 있었는지 간단히 살펴보겠습니다.

- DeepLab V1: Atrous conolution을 처음 적용하였습니다.

- DeepLab V2: multi-scale context를 적용하기 위해 Atrous Spatial Pyramid Pooling을 제안합니다.

- DeepLab V3: 기존 ResNet 구조에 Atrous Convolution을 활용하여 좀 더 Dense 한 Feature map을 얻는 방법을 제안합니다.

- DeepLab V3+: Depthwise Separable Convolution과 Atrous Convolution을 결합한 Atrous Separable Convolution의 활용을 제안합니다.

DeepLab V3+ 논문을 읽어보면 관련 연구로 V1에서 제시된 atrous convolution, V2에서 제시된 ASPP, 마지막으로 Depthwise Separable Convolution에 대해서 언급하니 이 글에서도 언급 후 본문으로 들어가 보도록 하겠습니다.

Relation Works

1) Atrous Convolution

Atrous에서 tous는 구멍(hole)을 의미합니다. 따라서 Atrous Convolution은 기존 Convolution과 다르게 필터 내부에 빈 공간을 둔 채 작동합니다.

위 그림에서는 얼마나 빈 공간을 둘지 결정하는 파라미터값 r이 1인 경우, 기존의 Convolution과 동일하고 r이 커질수록 빈 공간이 넓어지게 됩니다.

이러한 Atrous Convolution을 활용함으로써 얻을 수 있는 이점은 기존 convolution과 동일한 양의 파라미터와 계산량을 유지하면서도, Field of View(한 픽셀이 볼 수 있는 영역)을 크게 가져갈 수 있다고 주장합니다.

즉, 여러 convolution과 pooling 과정에서 디테일한 정보가 줄어들고 특정이 점점 추상화되는 것을 어느정도 방지할 수 있기 때문에, DeepLab series에서는 이를 적극적으로 활용하려 노력합니다.

(Field of View에 대한 추가설명)

보통 Semantic Segmentation에서 높은 성능을 내기 위해서는 CNN의 마지막에 존재하는 한 픽셀이 입력값에서 어느 크기의 영역까지 커버할 수 있는지를 결정하는 Receptive Field의 크기가 중요하게 작용합니다.

31*31 Large Kernel 논문 참조: https://openaccess.thecvf.com/content/CVPR2022/papers/Ding_Scaling_Up_Your_Kernels_to_31x31_Revisiting_Large_Kernel_Design_CVPR_2022_paper.pdf

2) Atrous Spatial Pyramid Pooling (ASPP)

Semantic Segmentation의 성능을 높이기 위한 방법 중 하나로, spatial pyramid pooling 기법이 자주 활용되고 있는 추세입니다.

DeepLab V2에서 feature map으로부터 rate가 다른 Atrous Convolution을 병렬로 적용한 뒤, 이를 다시 합쳐주는 ASPP기법을 활용할 것을 제안했었습니다. 최근 발표된 PSPNet에서도 Atrous Convolution을 활용하진 않았지만, 이와 비슷한 Pyramid Pooling 기법을 활용하였습니다.

이러한 방법들은 multi-scale context를 모델 구조로 구현하여 보다 정확한 Semantic Segmentation을 수행할 수 있도록 도우며, DeepLab V3부터는 ASPP를 기본 모듈로 계속 사용하고 있습니다.

3) Depthwise Separable Convoltion

위의 그림을 일반적으로 사용되는 Convolution을 나타낸 사진입니다.

입력 이미지가 8*8*3(H*W*C)이고, Convolution 필터 크기가 3*3(F*F)이라고 할 때, 필터 한개가 가지는 파라미터 개수는 3*3*3(F*F*C)가 됩니다. 만약 필터가 4개라면, 해당 Convolution의 총 파라미터 수는 3*3*3*4(F*F*C*N)만큼 가지게 됩니다.

Picture typically used to describe Depthwise Convolution

Convolution 연산에서 Channel 축을 필터가 한번에 연산하는 대신에 위 그림과 같이 입력 영상의 Channel 축을 모두 분리시킨 뒤, Channel 축 길이를 항상 1로 가지는 여러 개의 Convolution 필터로 대체시킨 연산을 Depthwise Separable Convolution이라고 합니다.

이처럼 복잡한 연산을 수행하는 이유는 기존 Convolution과 유사한 성능을 보이면서도 사용하는 파라미터수와 연산량을 획기적으로 줄일 수 있기 때문입니다.

예를 들어 입력값이 8*8*3이고 16개의 Convolution필터를 적용할 때 사용되는 파라미터 개수는

- Convolution: 3*3*3*16 = 432

- Depthwise Separable Convolution: 3*3*3 + 3*16 = 27 + 48 = 75

임을 확인할 수 있습니다.

Depthwise Convolution은 한 개의 필터가 한 개의 채널에만 연산을 수행한다고 이해하면 좀 더 이해가 수월합니다.

Depthwise Seprable Convolution은 기존 Convolution Filter가 Spatial Dimension과 Channel Dimension을 동시에 처리하던 것을 따로 분리시켜 각각 처리한다고 볼 수 있습니다.

두 축을 분리시켜 수행하더라도 최종 결과값은 결국 두 가지 축 모두를 처리한 결괏값을 얻을 수 있으므로, 기존 Convolution Filter가 수행하던 역할을 충분히 대체할 수 있게 되었습니다.

Dephwise Convolution: https://gaussian37.github.io/dl-concept-dwsconv/

Depthwise separable convolution 연산

gaussian37's blog

gaussian37.github.io

해당 블로그에 자세히 설명이 되어있어, 링크를 첨부합니다.

4) Encoder-Decoder

마지막으로 DeepLab V3+에서는 위에서 설명한 모듈들을 Encoder-Decoder의 형태로 구조화시켰습니다.

U-Net과 유사하게 intermediate connection을 가지는 encoder-decoder 구조를 적용하여 보다 spatial 한 특징을 살려 object boundary를 예측 가능하도록 하였습니다.

Method

DeepLab V3+ 에서는 Encoder로 DeepLab V3를 사용하고, Decoder로 Bilinear Upsampling대신 U-net과 유사하게 Concat해주는 방식을 사용합니다.

DeepLab V3와 DeepLab V3+의 구조를 그림으로 먼저 간단히 살펴보면 다음과 같습니다.

DeepLab V3는 기본적으로 ResNet을 BackBone으로 사용하였으며 구조는 다음과 같습니다.

- Encoder: Autrous Convolution를 적용한 ResNet

- ASPP

- Decoder: Bilinear Upsampling

DeepLab V3+의 구조는 다음과 같습니다.

- Encoder: ResNet with Atrous Convolution을 Xception으로 변경

- ASP를 ASSPP (Atrous Separable Spatial Pyramid Pooling)으로 변경

- Decoder: Bilinear Upsampling을 Simplified U-Net style decoder로 변경

위의 내용을 좀 더 세부적으로 보면 다음과 같습니다.

1) Encoder-Decoder with Atrous Coovolution

- Encoder

DCNN에서 Atrous Convolution을 통해 임의의 resolution으로 feature map을 뽑아낼 수 있도록 합니다.

여기서 Output Stride의 개념이 사용됩니다. "input image의 resolution과 최종 output의 비"로 생각하면 됩니다. 즉, 최종 feature map이 input image에 비해 32배 줄어들었다면, output stride를 32로 설정하는 것으로 이해하면 됩니다.

Semantic Segmentation에서는 더욱 디테일한 정보를 얻어내기 위해 마지막 부분의 Block을 1개 혹은 2개를 삭제 후 Atrous Convolution 해줌으로써 Output Stride를 16 혹은 8로 줄입니다.

그리고 아래 사진과 같이 다양한 크기의 물체 정보를 잡아내기 위해 다양한 rate의 Atrous Convolution을 사용하는 ASPP(Atrous Spatial Pyramid Pooling)을 사용합니다.

- Decoder

이전의 DeepLab V3에서는 Decoder 부분을 단순히 bilinear upsampling 해주었지만, V3+에서는 Encoder의 최종 Output에 1*1 Convolution을 하여 Channel을 줄이고 bilinear upsampling 해준 후 Concat 하는 과정이 추가되었습니다.

2) Modified Aligned Xception

본론으로 들어가기 전에, Xception은 Inception Module에 Depthwise Separable Convolution을 적용한 것입니다.

(Xception에 대한 추가 설명)

해당 논문에는 inception Module이 무엇인지 친절하게 설명해주지 않았기 때문에, Inception Module이 무엇인지부터 살펴보도록 하겠습니다.

보통 Convolution 연산을 통해 W, H의 크기를 줄이고 C는 늘리는 형태를 취하게 되는데, Inception은 위의 구조를 통해 차원을 줄이는 효과를 얻을 수 있습니다.

- W, H는 Max-Pooling을 통해서 줄입니다.

- C는 Convolution Filter에서 지정이 가능합니다. (보통의 Convolution은 C를 늘려 모델의 Width를 조절하는 방향으로 진행됩니다.)

- 이 때, 1*1 연산은 Convolution 연산에 사용되는 필터를 1*1로 하고 C는 늘리는 것이 아니라, 크기를 줄이는 역할을 수행하도록 합니다.

이러한 1x1 convolution 연산은 Fully Connected Layer (FCL)과 비슷한 방식으로 작동하므로, 이를 Network in Network (NIN)라고 부르기도 합니다. 1x1 convolution이 진행되면서 각 채널의 정보를 상호 연관시키는 것이 FCL이 하는 일과 비슷하기 때문입니다. 다만, 1x1 convolution은 FCL에 비해 공간적인 정보를 더 잘 유지한다는 장점이 있습니다.

다시 DeepLab V3+로 돌아와서, DeepLab V3+에서는 Xception을 Backbone으로 사용하지만 MSRA의 Aligned Xception과 다른 3가지 변화를 주었습니다.

왼쪽: MSRA의 Xception model, 오른쪽: 논문에서 사용된 변형 Xception model

원래의 모델과 다른 논문에서 사용된 변형 Xception model의 특징은 다음과 같습니다.

- 빠른 연산과 메모리 효율을 의해 Entry Flow Structure를 수정하지 않았습니다.

- Atrous Separable Convolution을 적용하기 위해 모든 Pooling Layer를 Depthwise Separable Convolution으로 대체하였습니다. 각각의 3*3 Depthwise Convolution 이후에 추가적으로 Batch-Norm과 ReLU 활성화 함수를 추가해 주었습니다.

(3) Experiment

train OS: training 중 output stride, eval OS: the output stride during evalulation

다양한 파라미터와 세팅에 대해 실험을 진행했는데, 우선 ResNet-101 구조를 Encoder로 사용하였을 때, 성능을 측정한 것입니다.

Decoder 부분을 Bilinear upsampling 하는 대신, 단순화된 U-net구조로 변경할 경우 기존 대비 mIoU가 1.64% 향상된 모습을 볼 수 있습니다.

Inference strategy on the PASCAL VOC 2012 val set when using modified Xception

Qualitative effect of employing the proposed decoder module compared with the naive bilinear upsampling (denoted as BU). In the examples, we adopt Xception as feature extractor and train output stride = eval output stride = 16.

이후, Encoder를 Xception으로 교체 후 실험했을 때는 약 2%가량의 성능 향상을 가져왔습니다.

ASPP 부분과 Decoder부분에 사용되는 Convolution들을 모두 Separable Convolution으로 대체할 경우 성능은 기존 Convolution을 사용할 때와 거의 비슷하였지만, 모델이 사용하는 연산량 자체가 획기적으로 줄어들었음을 확인할 수 있었습니다.

'🖥️ Computer Vision > 📰 Paper' 카테고리의 다른 글

[논문 리뷰] Focal Loss (0)	2023.08.24
[논문 리뷰] Barlow Twins (Self-Supervised Learning via Redundancy Reduction) (0)	2023.08.16
[논문 리뷰] Keypoint-wise Adaptive Loss for Whole Body Human Pose Estimation (0)	2023.05.29

'🖥️ Computer Vision > 📰 Paper' 카테고리의 다른 글

검색 태그

티스토리툴바