<aside> 📢 Abstact
CNN : global 한 정보를 포착하기 힘듬Transformer : gloabl dependency 구축에는 좋지만, cost가 너무 크다Dilated TransformerD-Former blocks
Local Scope Modules(LSMs) : self-attention을 local 범위에서 수행 ⇒ fine 정보 포착에 중심Global Scope Modules(GLMs) : global하게 self-attention 수행 ⇒ rough & global 정보 포착에 중심3D Transformer based architecture 설계 ⇒ direct로 3D data를 다룸LSMs & GSMs 설계 ⇒ patch를 늘리지 않고 다양한 information 다룸 ⇒ 연산 cost 줄임dynamic position encoding 적용 - input이 주어지면 direct로 learn
Encoder-Decoder UNet 구조
D-Former Block : 특징 추출 역활D-Former Block<aside> ⭐ D-Former Block

Dynamic Position Encoding(DPE) Block
depth-wise convolution(DW-Conv) : 각 channel별로 convolution 진행 ⇒ $K^2$만큼 cost 감소$$ x'_i = Resize(DWConv(Resize(x_i))) + x_i $$
$Resize(DWConv(Resize(x_i)))$ 으로 연산
Local Scope Module(LSM) - LS-MSA 수행

Global Scope Module(GSM) - GS-MSA 수행

dilated 관점으로 학습g 간격 만큼 떨어진 patch들을 pick (dilated)⇒ patch 증가 없이, 확장된 receptive feild 가질 수 있음
</aside>
dilated Transformer 기반 설계
LSM 을 통해 self-attention 수행하는 path개수 줄임(local scope)GSM 을 통해 global 연관성을 dilated scope안에서 구축