<aside> <img src="/icons/bookmark_red.svg" alt="/icons/bookmark_red.svg" width="40px" /> Abstract
Transformer
: global한 feature를 뽑는데 강점을 가짐 (by. self-attention)TransBTS
모델 제안
3D CNN
으로 구성CNN
은 이미지 특징 추출에 좋은 성능을 가지고 있지만, long-range dependency 구축에 어려움을 가짐
이유) convolution kernel이 제한된 recpetive filelds를 가지고 있기 때문 (Locality)
⇒ Global semantic segmentation에 치명적
self-attention
연산
연구 동기
Transformer in 3D CNN for 3D MRI Brain Tumor Segmentation(TransBTS) 제안
3D CNN
: 효율적으로 local 3D context 정보 추출Transformer
: global feature 구축3D CNN
- 공간/깊이 정보를 포착하는 feature map 생성Transformer encoder
- global dependency를 포착upsampling
& convolution
- 점진적으로 고해상도의 mask 생성<aside> 🐍 Encoder
3D CNN
- 3x3x3 conv를 통해 downsampling 수행
**Feature Embedding** of Transformer Encoder
**linear projection
: 3 x 3 x 3 convolution**
position embedding
추가
Transformer Layer
$L$개의 standard Transformer layers로 구성
</aside>
<aside> 🐍 Decoder
feature mapping
sequence한 데이터를 표준 4D feature map으로 reshape
$Z_L \in \mathbb{R}^{d\times N}$ ⇒ $Z_L' \in \mathbb{R}^{d\times {H\over 8} \times {W\over 8} \times {D\over 8}}$
연산량을 줄이기 위해, $C$ 차원 축소
$Z_L' \in \mathbb{R}^{d\times {H\over 8} \times {W\over 8} \times {D\over 8}}$ ⇒ $Z \in \mathbb{R}^{K\times {H\over 8} \times {W\over 8} \times {D\over 8}}$
feature upsampling
upsampling
& conv
: $Z \in \mathbb{R}^{K\times {H\over 8} \times {W\over 8} \times {D\over 8}}$ 는 gradually하게 최초의 해상도($R \in \mathbb{R}^{H\times W\times D}$)로 복원skip-connection
을 통해, 좀더 세밀한 segmentation mask 생성</aside>