FCNN 기반의 접근법
receptive fields 때문에 long-range dependency 구축에 한계를 가짐
locality of the receptive fields in convolutional layers still limits their learning capabilities to relatively small regions.
self-attention module
UNETR(UNEt TRansformer) 제안

<aside> 🏅 contributions
Transformer 기반의 모델
Encoder-Decoder형태의 **UNET 구조**를 가짐
INPUT 준비
positional embedding 수행 - 공간정보 유지
Encoder
transformer block을 stask처럼 쌓음

Skip-connection
Decoder
최종 mask
1x1x1 conv layer & softmax activation을 통해 voxel-wise semantic prediction 생성voxel단위의 soft dice loss & cross-entropy loss

J : class 개수I : voxel 개수$Y_{i,j}$ : j번째 class에 대한 i번째 voxel의 예측$P_{i,j}$ : j번째 class에 대한 i번째 voxel의 정답(GT)