문하겸 캠퍼님이 Transformer 구현 실습 코드를 공유해주셨습니다. (미완성)
빈칸을 채워넣은 후 테스트가 가능!
목요일 멘토링 세션 논문 공유관련 이야기
논문을 어떤식으로 요약해야할까
슬라이드 3페이지, 최대 6분이라서 키워드 위주로 발표하자
수식에 집중할 필요 없음
멘토님이 슬랙에서 공유해주신
면접질문
정리
알고 있는 evaluation metric 에 대해 모두 말해주세요. (가능하면 관련된 task를 포함하여, ex) classification - accuracy 등) 면접에서 이 질문이 나온다면, 지원자의 어떤 부분을 묻고 싶은 걸까요?
gradient descent 는 매 step마다 반드시 loss가 줄어들까요? 그렇다면 왜 그런지, 아니라면 왜 아닌지 말해주세요.
SGD의 S가 무엇인지, 무엇을 의미하는지 말해주세요, GD와는 어떤 점이 다른지도 말해주세요.
one-hot encoding의 장/단점에 대해 말해주세요
batch normalization이 효과가 좋지 않을 때는 어떻게 해야 할까요? 또 왜 좋지 않다면 예상할 수 있는 문제가 어떤 것들이 있을까요?