MCP, A2A, OpenClaw를 보다 보면 결국 이런 생각이 든다.
“AI 에이전트를 만들거나 실행하려면, 결국 안쪽에서 돌아가는 LLM도 필요하지 않나?”
보통은 OpenAI, Claude, Gemini 같은 클라우드 API를 떠올리게 된다.
그런데 꼭 외부 API만 써야 하는 건 아니다.
내 컴퓨터나 서버에서 직접 LLM을 실행할 수도 있다.
이때 자주 등장하는 도구가 Ollama다.
Ollama는 쉽게 말해 로컬 환경에서 LLM을 쉽게 실행할 수 있게 해주는 도구다.
Llama, Gemma, Qwen, Mistral, DeepSeek 같은 오픈 모델을 내 PC나 서버에 내려받고, 명령어로 실행할 수 있게 해준다. Ollama 공식 문서에서도 Ollama API를 통해 모델을 프로그래밍 방식으로 실행하고 상호작용할 수 있다고 설명한다.
Ollama = 내 컴퓨터에서 LLM을 실행하게 해주는 런타임
ChatGPT처럼 웹에서 접속해서 쓰는 서비스라기보다는, 내 로컬 환경에 모델을 받아서 직접 실행하는 쪽에 가깝다.
클라우드 LLM API는 API 키만 있으면 바로 사용할 수 있고, 성능도 좋은 편이다.
하지만 상황에 따라 로컬 LLM이 필요한 경우도 있다.
외부 API 비용을 줄이고 싶을 때
인터넷 연결 없이 테스트하고 싶을 때
민감한 데이터를 외부로 보내기 부담스러울 때
LLM 기반 기능을 로컬에서 빠르게 실험하고 싶을 때
오픈 모델을 직접 비교해보고 싶을 때
Ollama 공식 사이트도 “open models”를 기반으로 작업을 자동화하고, 데이터를 안전하게 유지할 수 있다는 점을 강조한다.
즉, Ollama는 “AI 서비스를 대체한다”기보다, 내 환경에서 LLM을 직접 실행해보는 선택지에 가깝다.