면접질문 | Notion

batch norm - conv - pooling - activation - dropout 어떤 순서인가?

: conv - batch norm - activation - dropout - pooling

: (pooling 후에 dropout이 올경우 pooling의 의미가 없어짐)
activation function에는 무슨 종류가 있는가?

: 이 질문은 최신 논문들을 얼마나 읽고 있는지에 대한 탐색

적절한 activation func을 사용할 수 있는가
word2vec 같은 경우 벡터 간의 유사도로 내적을 구하는데, 다른 방법은?

: cosine 유사도, 그러나 내적을 사용하는 이유는 cosine 유사도를 구함에 있어서 내적을 포함하기 때문에 연산량이 적어지기 때문
train data가 1만개, test data가 100만개라면 어떻게 문제를 해결해야할까?

: test data를 peudo labelling을 하여 사용하거나 (실무적)
```
deep learning을 사용하지 않고 random forest 등의 기법을 이용할 것 (이론적)
```
- random forest 보다는 통계 모델 기반의 방식 같은 표현
weight에 bias가 있는 이유는?

: underfit이 생길 가능성을 줄여주고, data의 error를 조정해주기 위해서?
Sigmoid에 비해 ReLU를 사용하는 이유

: 연산 효율적, 이전의 gradient 보존, 쉬운 비선형성
수학적 관점에서의 machine learning의 목적

: local minima를 찾는 것 (global 아님)
TF-IDF에 대해 아는 점을 다 말하시오.

: TF는 문서에서 특정 단어의 등장 빈도를 말하는데, 이 경우 문서를 파악하는데 도움이 되지 않는 단어(e.g. ~에, ~다 ...)에 높은 가중치를 주게 될 수 있음. 이를 해결하기 위해 IDF 값을 TF에 곱해주는데, DF는 특정 단어가 나타나는 문서의 수로 이를 역수변환한 값이 IDF값임. 이를 이용하면 모든 문서에 존재하는 중요하지 않은 단어의 중요도(가중치)는 떨어지고 특정 문서에서 자주 등장하지만 다른 문서에서는 잘 등장하지 않는 해당 문서를 잘 표현하는 단어에 높은 가중치를 줄 수 있음

9/15 수요일 피어세션

알고 있는 evaluation metric 에 대해 모두 말해주세요. (가능하면 관련된 task를 포함하여, ex) classification - accuracy 등) 면접에서 이 질문이 나온다면, 지원자의 어떤 부분을 묻고 싶은 걸까요?
- Regression: RMSE, MAE, MSE, R2, MAPE
- Classification: F1, Accuracy, Recall, Precision, AUC, BLEU
→ 질문의 이유는?
- 최신 논문의 metric 들을 얼마나 알고있는지
- 문제에 따라서 올바른 평가지표를 적용할 수 있는지
gradient descent 는 매 step마다 반드시 loss가 줄어들까요? 그렇다면 왜 그런지, 아니라면 왜 아닌지 말해주세요.
- gradient descent는 매 step시 loss가 줄어드는 방향으로 학습되지만 loss가 극소값에 가까워진 경우 Gradient x Learning Rate 값에 따라서 loss가 증가할수도 있음
SGD의 S가 무엇인지, 무엇을 의미하는지 말해주세요, GD와는 어떤 점이 다른지도 말해주세요.
- Stochatic, 확률적
- GD는 모든 데이터를 사용해 학습을 진행하지만 SGD의 경우 무작위로(확률적으로) 데이터를 뽑아서 gradient descent를 수행한다.
one-hot encoding의 장/단점에 대해 말해주세요
- 장점
  - 범주형 데이터를 연속형 데이터로 사용할 수 있게 해준다.
- 단점
  - 단어간의 관계나 유사도를 표현할 수가 없다.
  - 너무 많은 변수는 차원의 저주를 유발할 수 있다.
  - Sparse, Dense 형태에 따른 계산량 증가의 문제가 발생할 수 있다.