<aside> 📢 Abstact
CNN
: global 한 정보를 포착하기 힘듬Transformer
: gloabl dependency 구축에는 좋지만, cost가 너무 크다Dilated Transformer
D-Former blocks
Local Scope Modules(LSMs)
: self-attention을 local 범위에서 수행 ⇒ fine 정보 포착에 중심Global Scope Modules(GLMs)
: global하게 self-attention 수행 ⇒ rough & global 정보 포착에 중심3D Transformer based architecture
설계 ⇒ direct로 3D data를 다룸LSMs
& GSMs
설계 ⇒ patch를 늘리지 않고 다양한 information 다룸 ⇒ 연산 cost 줄임dynamic position encoding
적용 - input이 주어지면 direct로 learnEncoder-Decoder UNet 구조
D-Former Block
: 특징 추출 역활D-Former Block
<aside> ⭐ D-Former Block
Dynamic Position Encoding(DPE) Block
depth-wise convolution(DW-Conv)
: 각 channel별로 convolution 진행 ⇒ $K^2$만큼 cost 감소$$ x'_i = Resize(DWConv(Resize(x_i))) + x_i $$
$Resize(DWConv(Resize(x_i)))$ 으로 연산
Local Scope Module(LSM)
- LS-MSA
수행
Global Scope Module(GSM)
- GS-MSA
수행
dilated
관점으로 학습g
간격 만큼 떨어진 patch들을 pick (dilated)⇒ patch 증가 없이, 확장된 receptive feild 가질 수 있음
</aside>
dilated Transformer
기반 설계
LSM
을 통해 self-attention 수행하는 path개수 줄임(local scope)GSM
을 통해 global 연관성을 dilated scope안에서 구축