batch norm - conv - pooling - activation - dropout 어떤 순서인가?
: conv - batch norm - activation - dropout - pooling
: (pooling 후에 dropout이 올경우 pooling의 의미가 없어짐)
activation function에는 무슨 종류가 있는가?
: 이 질문은 최신 논문들을 얼마나 읽고 있는지에 대한 탐색
적절한 activation func을 사용할 수 있는가
word2vec 같은 경우 벡터 간의 유사도로 내적을 구하는데, 다른 방법은?
: cosine 유사도, 그러나 내적을 사용하는 이유는 cosine 유사도를 구함에 있어서 내적을 포함하기 때문에 연산량이 적어지기 때문
train data가 1만개, test data가 100만개라면 어떻게 문제를 해결해야할까?
: test data를 peudo labelling을 하여 사용하거나 (실무적)
deep learning을 사용하지 않고 random forest 등의 기법을 이용할 것 (이론적)
weight에 bias가 있는 이유는?
: underfit이 생길 가능성을 줄여주고, data의 error를 조정해주기 위해서?
Sigmoid에 비해 ReLU를 사용하는 이유
: 연산 효율적, 이전의 gradient 보존, 쉬운 비선형성
수학적 관점에서의 machine learning의 목적
: local minima를 찾는 것 (global 아님)
TF-IDF에 대해 아는 점을 다 말하시오.
: TF는 문서에서 특정 단어의 등장 빈도를 말하는데, 이 경우 문서를 파악하는데 도움이 되지 않는 단어(e.g. ~에, ~다 ...)에 높은 가중치를 주게 될 수 있음. 이를 해결하기 위해 IDF 값을 TF에 곱해주는데, DF는 특정 단어가 나타나는 문서의 수로 이를 역수변환한 값이 IDF값임. 이를 이용하면 모든 문서에 존재하는 중요하지 않은 단어의 중요도(가중치)는 떨어지고 특정 문서에서 자주 등장하지만 다른 문서에서는 잘 등장하지 않는 해당 문서를 잘 표현하는 단어에 높은 가중치를 줄 수 있음
알고 있는 evaluation metric 에 대해 모두 말해주세요. (가능하면 관련된 task를 포함하여, ex) classification - accuracy 등) 면접에서 이 질문이 나온다면, 지원자의 어떤 부분을 묻고 싶은 걸까요?
→ 질문의 이유는?
gradient descent 는 매 step마다 반드시 loss가 줄어들까요? 그렇다면 왜 그런지, 아니라면 왜 아닌지 말해주세요.
SGD의 S가 무엇인지, 무엇을 의미하는지 말해주세요, GD와는 어떤 점이 다른지도 말해주세요.
one-hot encoding의 장/단점에 대해 말해주세요