Batch Inference VS Online Inference

<aside> 💡 먼저 읽어보면 좋아요!

</aside>

자, 당신은 Business Objective를 정의하고 이를 적절한 평가방법을 선정하여 기계학습 모델을 만들었다.
그렇다면 이제 당신이 만든 모델을 다른 사람이 사용할 수 있도록 해줘야한다. 이를 어떻게 할까? 당신이 가져야하는 첫 질문은 무엇일까?
정답은 너의 모델을 Serve하기 위해 Batch Inference / Online Inference 중 어떠한 것을 사용해야하는지이다. 우리는 두 접근이 어떤 차이점을 갖는지, 어떤 경우 해당 접근을 다른 접근보다 선호하는지 알아야한다.

Untitled

Batch Inference는 Observation의 Batch에서 예측을 생성하는 절차이다. 여기서 Batch는 전형적으로 어떤 일정(Hourly, Daily)에서 생성된다. 해당 예측들은 데이터베이스에 저장되고 개발자들과 사용자들이 사용할 수 있게 만들어진다.
장점
- 지연 시간에 대한 요구가 시간 또는 일 단위로 있기 때문에 이에 대해 걱정할 필요 없다.
- Batch Inference를 통해 생성된 예측은 실제 사용자들에게 넘어가기 전에 분석되고 후처리될 수 있다.
단점
- 실시간 처리의 목적을 가진 곳에서 사용할 수 없다. 즉, Batch Inference로 생성된 예측은 새로운 데이터에 대해 사용될 수 없다. (Cold Start Problem)
  
  → ex. 예를 들어 어떤 사용자가 Neflix와 같은 서비스에 새로 가입했다고 가정하자. 만약 추천이 매일 밤 배치에 생성된다면 해당 사용자는 제대로 개인 맞춤화된 추천을 받지 못할 것이다. 해당 부분을 개선하는 한 방법으로는 비슷한 유저의 데이터를 사용해 생성한 추천이 있다. → Netflix가 그렇게 추천한다는 말이 아님! 그냥 예시.

Untitled

Online Inference는 실시간 요청에 대한 머신러닝 예측을 생성하는 절차이다. 이는 Real-time Inference 또는 Dynamic Inference로도 알려져있다. 전형적으로 해당 예측은 Runtime에서 데이터의 각각의 Observation에서 생성된다.
장점
- 앞에서 언급했듯이, 실시간 요청에 대해 예측을 생성한다는 것이 가장 큰 장점이다. 유저가 요청할때마다 이에 대한 예측값을 제공한다.
단점
- Batch Inference보다 구조적으로 더 복잡하고 지연시간(latency) 요구사항도 신경써야 하기에 비교적 더 어렵다.
  
  → 데이터 수신, 추론, 검증, 네트워크 송신 모두 합쳐 100ms 안에 처리해야함.