foreground-background imbalance를 완화하기 위해
$$ FL(p_t)=-\alpha_t(1-p_t)^\gamma\log(p_t) \tag{1} $$
$$ \begin{cases} p &\text{if }y=1 \\ 1-p &\text{otherwise.} \end{cases} \tag{2} $$
entropy minization, consistency regularization, MixUp augmentation 등 좋은 것들은 다 넣음
prediction의 average ensemble 사용
$$ \bar{y}=\frac{1}{K}\sum^K_{k=1}\text{p}_\text{Model}(\hat{u}_k;\theta) \tag{3} $$
guessed label을 sharpening operator로 한 번 더 변환
$$ \text{Sharpen}(\bar{y},T)_i=\bar{y}^{\frac{1}{T}}i/\sum^L{j=1}\bar{y}^{\frac{1}{T}}_j \tag{4} $$
MixUp augmentation으로 또 다른 training example $(x',y')$을 생성
$$ \begin{aligned} &\lambda\sim\text{Beta}(\eta,\eta) &&&&&&&&&&&&&&&&(5)\\ &\tilde{\lambda}=\text{max}(\lambda,1-\lambda) &&&&&&&&&&&&&&&&(6)\\ &\hat{x}=\tilde{\lambda}x+(1-\tilde{\lambda})x' &&&&&&&&&&&&&&&&(7)\\ &\hat{y}=\tilde{\lambda}y+(1-\tilde{\lambda})y' &&&&&&&&&&&&&&&&(8) \end{aligned} $$