FCNN 기반의 접근법
receptive fields 때문에 long-range dependency 구축에 한계를 가짐
locality of the receptive fields in convolutional layers still limits their learning capabilities to relatively small regions.
self-attention module
UNETR(UNEt TRansformer) 제안
<aside> 🏅 contributions
Transformer
기반의 모델Encoder-Decoder형태의 **UNET 구조
**를 가짐
INPUT 준비
positional embedding
수행 - 공간정보 유지
Encoder
transformer block
을 stask처럼 쌓음
Skip-connection
Decoder
최종 mask
1x1x1 conv layer
& softmax activation을 통해 voxel-wise semantic prediction 생성voxel단위의 soft dice loss & cross-entropy loss
J
: class 개수I
: voxel 개수$Y_{i,j}$
: j번째 class에 대한 i번째 voxel의 예측$P_{i,j}$
: j번째 class에 대한 i번째 voxel의 정답(GT)