D-Former: A U-Shaped Dilated Transformer for 3D Medical Image Segmentation(2022.01)

<aside> 📢 Abstact

dilated manner로 global self-attention
- patch 개수 증가 없이 receptive fields 확장 ⇒ cost 줄임
U-shape encoder-decoder 구조 </aside>

1. Introduction

3D data를 direct하게 다룸
3D U-shaped 구조 (encoder-decoder)
D-Former blocks
- Local Scope Modules(LSMs) : self-attention을 local 범위에서 수행 ⇒ fine 정보 포착에 중심
- Global Scope Modules(GLMs) : global하게 self-attention 수행 ⇒ rough & global 정보 포착에 중심
Contribution
1. 3D Transformer based architecture 설계 ⇒ direct로 3D data를 다룸
2. LSMs & GSMs 설계 ⇒ patch를 늘리지 않고 다양한 information 다룸 ⇒ 연산 cost 줄임
3. dynamic position encoding 적용 - input이 주어지면 direct로 learn
4. 다른 도메인(CT, MRI ..)에서도 작은 model size로 좋은 segmentation 성능을 냄

Untitled

Encoder-Decoder UNet 구조

Encoder
- Patch Embedding : patch로 쪼개기 & sequence화
  1. (W,H,D) → (W/4, H/4, D/2)개의 patch들로 쪼개기(patch.size = [4,4,2])
  2. 채널 linear ⇒ (W/4, H/4, D/2) x C
- D-Former Block : 특징 추출 역활
- Down-sampling
  1. patch merging([H.W.D]→[H/2.W/2.D/2])
  2. channel linear(C→2C)
Decoder
- Patch Expanding : feature map 원래 사이즈로 복원
  - segmentation head : pixel-wise segmentation mask 생성
- D-Former Block
- Up-sampling
  1. patch merging([H.W.D]→[2H.2W.2D])
  2. channel linear(2C→C)

<aside> ⭐ D-Former Block

Untitled

Dynamic Position Encoding(DPE) Block
- depth-wise convolution(DW-Conv) : 각 channel별로 convolution 진행 ⇒ $K^2$만큼 cost 감소
$$ x'_i = Resize(DWConv(Resize(x_i))) + x_i $$
- $x_i$ : input feature
- 각 patch의 positional 정보 - X 기반으로 dynamically learned + CNN의 translation-invariance 성질 ⇒ 견고성&일반화 증가
  - $Resize(DWConv(Resize(x_i)))$ 으로 연산
    
    [딥러닝] Depth-wise Separable Convolution 원리(Pytorch 구현)
Local Scope Module(LSM) - LS-MSA 수행
1. 전체 feature map을 겹치지 않는 unit(=window)로 나누기
2. 각 unit(=window) 내에서 self-attention 수행
- 연산량이 quadratic X → linear하게 줄어듬
- 다른 unit에 있는 patch들과의 연관성 학습 불가(local)
Global Scope Module(GSM) - GS-MSA 수행
- 다른 unit들간 연관성을 dilated 관점으로 학습
1. g 간격 만큼 떨어진 patch들을 pick (dilated)
2. pick한 patch들 가지고 self-attention 수행
⇒ patch 증가 없이, 확장된 receptive feild 가질 수 있음

</aside>

U-shaped encoder-decoder 구조
dilated Transformer 기반 설계
- LSM 을 통해 self-attention 수행하는 path개수 줄임(local scope)
- GSM 을 통해 global 연관성을 dilated scope안에서 구축