Intro

<aside> 🔥

Cline에서 Local 모델을 돌리기 위해 Ollama를 설치하는 방법을 알아봅니다. (작성일 2025년 4월 7일)

</aside>

Cline으로 무료로 AI 모델을 돌리는 것은 너무 좋습니다. 하지만 2가지 문제가 있습니다.

Gemini 2.5. Pro처럼 제한량이 있는 경우 중간에 사용량 때문에 더이상 사용이 불가능합니다.
Agent가 기본 형태가 되버리면서 API call(요청) 횟수가 기하급수적으로 늘었습니다. 이로 인해 평소보다 빠르게 제한량에 도달해버립니다.

위 문제는 다음과 같은 3가지 측정 방식으로 인해 제한량이 걸리게 됩니다.

분당 요청 수 (RPM) : 분당 API call을 하는 횟수를 의미합니다.
일일 요청 수 (RPD) : 하루에 API call을 하는 횟수를 의미합니다.
분당 토큰 (TPM) : 분당 토큰 수를 의미합니다.

현재 제가 사용하고 있던 gemini-2.5-pro-exp-03-25 모델은 다음과 같은 제한이 있습니다.

분당 요청 수 (RPM) : 5
일일 요청 수 (RPD) : 25
분당 토큰 (TPM) : 1,000,000 tokens
Cline에서 제한량에 걸려버린 모습

즉, 저는 하루에 1,000,000 토큰을 사용하지 못한 채 일일 요청 수(RPD)에 의한 제한에 걸려버리게 됩니다. 토큰을 많이 사용하지도 않는데 제한량에 걸려버리는 이유는 AI Agent 때문입니다.

AI Agent는 Tool(도구)를 이용해서 실제 Action까지 수행하는 형태의 AI 입니다. Agent에 대한 개념을 이해하고 싶으시다면 1.2. What is Agent?를 참고해주세요!

AI Agent가 도구를 사용할 때마다 API 요청을 보내게 됩니다. 즉, 하나의 task를 수행하기 위해서는 최소 3회 혹은 많게는 10회 이상의 API 요청을 보내게 되므로 **일일 요청 수(RPD)**가 급격히 소모됩니다.

3회의 API 요청(API Request)를 한 AI Agent

따라서, 요청 제한이 없는 무료의 Reasoning model 혹은 Local 모델이 무조건 필요해졌습니다. 이러한 로컬 모델을 돌리기 위해 Ollama를 설치하여 Local 모델을 셋팅해봅니다.

Body

1. https://ollama.com/ 홈페이지로 들어갑니다.

2. ollama 홈페이지의 `Download` 버튼을 클릭합니다.

3. Ollama.app 파일을 실행합니다.

4. ollama가 잘 동작하는지 확인합니다.

5. 모델을 다운로드합니다.

6. 모델이 정상적으로 동작하는지 테스트합니다.

7. 모델을 내립니다.

Conclusion

ollama를 설치해서 local 모델을 매우 쉽고 간단하게 서빙하는 것을 알아보았습니다. 이 작업을 하려면 docker 깔고 허깅페이스 코드 짜고 하면 적어도 2 ~ 3일 걸릴 작업을 단 30분만에 끝냈습니다.

또한 python에서도 쉽게 사용할 수 있습니다. 자세한 방법은 https://github.com/ollama/ollama-python을 참고해주시면 감사하겠습니다.

단, 최신 모델을 빠르게 사용하기 어렵다는 점이 아쉬운 부분인거 같습니다. ollama create를 이용하면 로컬 모델을 만들어서 사용할 수 있을거 같긴 한데 좀 귀찮을거 같네요.. 나중에 해보면 좋을거 같습니다!

⬅️ 이전 페이지

Cline 설치하기

➡️ 다음 페이지

Cline에 ollama 적용하기

Reference

https://ai.google.dev/gemini-api/docs/rate-limits?hl=ko

https://blog.google/technology/developers/gemma-3/

https://github.com/ollama/ollama

<aside>

Topics