Computational graph

a language describing a function
- Node - variable (scalar/ vector/ tensor) 一種運算狀態 $eg.\ a+b,\ e^{x^2},\ b+1$
- Edge - operation (simple function) $eg.\ +,\ *,\ exp()$
Chain Rule + Backpropagation
- 建立forward net的時候紀錄當前節點的variable value, node value及使用的運算函式種類 (AddBackward, SumBackward ...)
- 反向傳播時就可以用當前節點的value及運算函式種類算出當前節點的梯度值

1. 實現細節

最後一個節點在反向傳播的時候值一定為1
- 假設最後一個節點為e, 則 ⇒ $\frac{de}{de} = 1$
只考慮當前節點與前一個節點的關係 ⇒ 再將當前節點的variable值帶入即可獲得當前梯度
- $u = x^2,\ v = e^{x^2},\ y=xe^{x^2}$
```
x ->
     u -> v ->
x ->           y
          x ->
```
- 到v點時，$\frac{dy}{dv}=\frac{dxv}{dv}=x*1$，若 x 為 2 則梯度值為 2
- 到u點時，$\frac{dv}{du}=\frac{de^u}{du}=e^u=v$，由上式反向梯度值為 $2e^u=2e^{x^2}=2*e^4$
- 到x點請看4.
若一個節點有兩條線出去，則backpropagation的時候對該節點的總梯度為兩條線相加
```
	-> x ->
s         z
	-> y ->
```
- $\displaystyle\frac{dz}{ds} = \frac{\partial z}{\partial x}\frac{dx}{ds}\ +\ \frac{\partial z}{\partial y}\frac{dy}{ds}$
parameter sharing
- 若同一變數反覆使用如(2.)計算時請先將其視為不同的變數，最後對該變數的梯度值為所有點相加
- 視為不同變數才不會重複累加
```
x1 ->
      u -> v  ->
x2 ->            y
           x3 ->
```
- 到x1時$\frac{du}{dx_1}=\frac{dx_1x_2}{dx_1}=1*x_2=x$，到此點梯度計算為$\frac{dy}{dv}\frac{dv}{du}\frac{du}{dx1}=xe^ux=x^2e^{x^2}$
- 到x2時$\frac{du}{dx_2}=\frac{dx_1x_2}{dx_2}=x_1*1=x$，到此點梯度計算為$\frac{dy}{dv}\frac{dv}{du}\frac{du}{dx2}=xe^ux=x^2e^{x^2}$
- 到x3時$\frac{dy}{dx_3}=\frac{dvx_3}{dx_3}=v=e^{x^2}$
- x的總梯度值為$x^2e^{x^2}+x^2e^{x^2}+e^{x^2}=(2x^2+1)e^{x^2}$與直接計算dy/dx相同

2. Feedforward Net

Forward pass
- 第一層input為 $x$
- 第二層開始input為 $a^1,\ a^2...,\ a^{l-1}$
  - 其中 $l$ 為第幾層，$a^l$ 為第 $l$ 層經過activation的節點輸出，相當於第 $l+1$ 層的輸入
- 向量表示：
  
  $z^1 = W^1x+b^1$
  
  $a^1=\sigma(z^1)$
  
  ...
  
  $z^{l-1}=W^{l-1}a^{l-2}+b^{l-1}$
  
  $a^{l-1}=\sigma(z^{l-1})$
  
  $z^{l}=W^{l}a^{l-1}+b^{l}$
  
  $a^{l}=\sigma(z^{l})$

對特定參數$w_{ij}^l$求導
1. Total Loss
  - 推導：
    
    $L:loss\ function\qquad\qquad\theta:model\ parameter s\qquad\qquad N:N筆資料$
    
    $\displaystyle\frac{\partial L(\theta)}{\partial w}= \frac{\partial (C^1(\theta)+C^2(\theta)+...+C^n(\theta))}{\partial w}= \frac{\partial C^1(\theta)}{\partial w}+...+\frac{\partial C^n(\theta)}{\partial w}$
  - 結論：
    - Total Loss對特定參數w的偏微分 ⇒ 相當於每筆資料造成的loss對w的偏微分之總和
    - 所以我們只需在意 $\frac{\partial C}{\partial w}$
2. 參數
  - $w_{ij}^l$代表 l-1 層的第 j 個neuron傳到 l 層第 i 個neuron所須相乘的參數（見上圖）
  - 因為 $w_{ij}^l$ 只會影響到 $z_i^l$ ，結合1.之結論之求導公式如下：
    
    $\displaystyle\frac{\partial C}{\partial w^l_{ij}}= \frac{\partial C}{\partial z_i^l} \frac{\partial z_i^l}{\partial w^l_{ij}}$
    
    $where\ z_i^l= (w_{i1}^la_1^{l-1}+b_1^{l-1})+(w_{i2}^la_2^{l-1}+b_2^{l-1})+ ...+ (w_{ij}^la_j^{l-1}+b_j^{l-1})+...$
    
    $其中:\\ \quad\quad\quad\displaystyle\frac{\partial C}{\partial z_i^l}=\delta_i^l,\quad\quad \displaystyle\frac{\partial z_i^l}{\partial w_{ij}^l}= \left \{ \begin{array}{ll}
    a_j^{l-1}&l>1\\ x_j& l=1 \end{array} \right.$
  - 物理意義：在某層w對z的偏微分值 = 該層的輸入值 = 前一層的激活函數輸出值
Backward Pass
- 把network逆轉
  - 假設Forward最後一層(第L層)有 k 個輸出 $y_1\sim y_k$，其中 $y=a^L=\sigma(z^L)$
  - 則反向的第一層input就是 $y\ (y_1\sim y_k)$ 對 C 求導、求梯度
    - 用大小為 k 的 gradient vector 表示：$\nabla_yC=(\frac{\partial C}{\partial y_1},\frac{\partial C}{\partial y_2},...,\frac{\partial C}{\partial y_k})$
  - 第二層input代表反向流至 $z^L$ ，結合上面提及之公式：
    - $\frac{\partial C}{\partial z^L}=\delta^L= \frac{\partial a}{\partial z^L}\frac{\partial C}{\partial a}= \frac{\partial \sigma(z^L)}{\partial z^L}\frac{\partial C}{\partial y}= \sigma'(z^L)\cdot\nabla_yC$
    - $\delta^L= \sigma'(z^L)\cdot\nabla_yC$
  - 第三層input代表反向流至 $z^{L-1}$，
    - $\frac{\partial C}{\partial z^{L-1}}=\delta^{L-1}= \frac{\partial a}{\partial z^{L-1}}\frac{\partial C}{\partial a}= \frac{\partial \sigma(z^{L-1})}{\partial z^{L-1}}\frac{\partial C}{\partial a}=\sigma'(z^{L-1})\frac{\partial C}{\partial a}$
      
      $其中\ \ \frac{\partial C}{\partial a}\ 代表前向出去的k條路徑傳回來相加$
      
      $=\frac{\partial z_1^L}{\partial a} \frac{\partial C}{\partial z_1^L}+ \frac{\partial z_2^L}{\partial a} \frac{\partial C}{\partial z_2^L}+ ...+ \frac{\partial z_k^L}{\partial a} \frac{\partial C}{\partial z_k^L}$
      
      $=w_1^L\delta_1^L+w_2^L\delta_2^L+...+w_k^L\delta_k^L$
      
      $=(W^L)^{^\top}\cdot\delta^L$
    - $\delta^{L-1}=\sigma'(Z^{L-1})\cdot(W^L)^{^\top}\cdot\delta^L$
  - 第l層input代表反向流至 $z^l$
    - $\frac{\partial C}{\partial z^l}=\delta^{l}=\sigma'(Z^{L-l})\cdot(W^{l+1})^{^\top}\cdot\delta^{l+1}$

1. 實現細節

2. Feedforward Net

3. 矩陣運算