<aside> <img src="/icons/bookmark_red.svg" alt="/icons/bookmark_red.svg" width="40px" /> Abstract


1. Introduction


2. Method

Untitled

  1. 3D CNN - 공간/깊이 정보를 포착하는 feature map 생성
  2. Transformer encoder - global dependency를 포착
  3. upsampling & convolution - 점진적으로 고해상도의 mask 생성

<aside> 🐍 Encoder

</aside>

<aside> 🐍 Decoder

  1. feature mapping

    1. sequence한 데이터를 표준 4D feature map으로 reshape

      $Z_L \in \mathbb{R}^{d\times N}$ ⇒ $Z_L' \in \mathbb{R}^{d\times {H\over 8} \times {W\over 8} \times {D\over 8}}$

    2. 연산량을 줄이기 위해, $C$ 차원 축소

      $Z_L' \in \mathbb{R}^{d\times {H\over 8} \times {W\over 8} \times {D\over 8}}$ ⇒ $Z \in \mathbb{R}^{K\times {H\over 8} \times {W\over 8} \times {D\over 8}}$

  2. feature upsampling

</aside>

TransUNet vs TransBTS


3. Experiments