Ollama 명령어 완벽 정리 — 설치부터 커스텀 모델, API 연동까지 (2026)

Ollama 명령어 완벽 정리 — 설치부터 커스텀 모델, API 연동까지 (2026)

Ollama 터미널에서 LLM 모델 실행 화면

Ollama는 Llama 3, Gemma, Mistral, DeepSeek 같은 오픈소스 LLM을 내 컴퓨터에서 직접 돌릴 수 있게 해주는 도구입니다. ChatGPT처럼 클라우드 API를 쓰는 게 아니라, 내 PC의 CPU/GPU로 직접 추론을 돌리기 때문에 무료이고, 인터넷 없이도 작동합니다.

설치도 간단하고 명령어도 직관적인데, 막상 쓰다 보면 “모델을 어떻게 업데이트하지?”, “커스텀 시스템 프롬프트는?”, “API로 연동하려면?” 같은 질문이 생깁니다. 이 글에서는 Ollama CLI 명령어를 한 장에 정리하고, 실전에서 자주 쓰는 패턴까지 다룹니다.

Ollama 설치

Linux (가장 간편)

curl -fsSL https://ollama.com/install.sh | sh

한 줄이면 설치 끝입니다. 설치 후 자동으로 ollama serve가 백그라운드 서비스로 등록됩니다.

macOS

ollama.com/download에서 .dmg 파일을 다운받아 설치합니다. 설치 후 메뉴바에 Ollama 아이콘이 생깁니다.

Windows

마찬가지로 ollama.com/download에서 설치 파일을 받아 설치합니다. PowerShell이나 CMD에서 바로 사용 가능합니다.

설치 확인

# 버전 확인
ollama --version

# 서비스 상태 확인 (Linux)
systemctl status ollama

Ollama 명령어 한눈에 보기 (치트시트)

먼저 전체 명령어를 한 번에 정리하고, 아래에서 각각 자세히 설명합니다.

명령어 기능 예시
ollama run 모델 실행 (대화 모드) ollama run llama3.2
ollama pull 모델 다운로드 ollama pull gemma3:4b
ollama ls 설치된 모델 목록 ollama ls
ollama ps 실행 중인 모델 목록 ollama ps
ollama show 모델 상세 정보 ollama show llama3.2
ollama rm 모델 삭제 ollama rm mistral
ollama cp 모델 복사 ollama cp llama3.2 my-llama
ollama create 커스텀 모델 생성 ollama create mybot -f Modelfile
ollama stop 실행 중인 모델 중지 ollama stop llama3.2
ollama serve Ollama 서버 시작 ollama serve
ollama push 모델을 레지스트리에 업로드 ollama push myname/mybot
ollama launch 외부 통합 앱 실행 ollama launch claude

모델 다운로드 및 관리

ollama pull — 모델 다운로드

# 기본 모델 다운로드
ollama pull llama3.2

# 특정 크기 지정 (태그 사용)
ollama pull gemma3:4b
ollama pull gemma3:12b

# 특정 양자화 버전 다운로드
ollama pull mistral-nemo:12b-instruct-2407-q6_K

모델 이름 뒤에 :태그를 붙여서 특정 버전을 지정할 수 있습니다. 태그를 생략하면 :latest가 기본으로 다운로드됩니다. 사용 가능한 모델 목록은 ollama.com/library에서 확인할 수 있습니다.

ollama ls — 설치된 모델 목록 확인

ollama ls

출력 예시:

NAME                    ID              SIZE    MODIFIED
llama3.2:latest         a80c4f17acd5    2.0 GB  2 weeks ago
gemma3:4b               f02dd72bb242    3.3 GB  3 days ago
deepseek-r1:7b          0a8c26691023    4.7 GB  5 days ago

디스크 용량을 많이 차지하므로, 안 쓰는 모델은 정리하는 게 좋습니다.

ollama rm — 모델 삭제

# 단일 모델 삭제
ollama rm mistral

# 여러 모델 한번에 삭제하고 싶다면
ollama rm mistral gemma3:4b

모델 업데이트

Ollama에는 별도의 update 명령어가 없습니다. ollama pull을 다시 실행하면 최신 버전으로 업데이트됩니다.

# 모델 업데이트 (최신 버전 다시 다운로드)
ollama pull llama3.2

# 모든 모델 한번에 업데이트하는 꿀팁
ollama ls | tail -n +2 | awk '{print $1}' | xargs -I {} ollama pull {}

마지막 명령어는 설치된 모든 모델을 순서대로 최신 버전으로 업데이트합니다.

모델 실행 및 대화

ollama run — 모델 실행

# 대화 모드로 실행 (인터랙티브)
ollama run llama3.2

# 한 줄 질문 후 바로 종료
ollama run llama3.2 "대한민국의 수도는?"

# 파일 내용을 모델에 전달
ollama run llama3.2 "이 코드를 분석해줘" < main.py

모델이 로컬에 없으면 자동으로 다운로드 후 실행됩니다. ollama pull + ollama run을 합친 셈입니다.

멀티라인 입력

긴 텍스트를 입력하려면 """로 감싸면 됩니다:

>>> """
다음 코드에서 버그를 찾아주세요:

def calculate(a, b):
    result = a / b
    return result

print(calculate(10, 0))
"""

멀티모달 (이미지 입력)

비전을 지원하는 모델(gemma3, llava 등)에서는 이미지를 직접 분석할 수 있습니다:

ollama run gemma3 "이 이미지에 뭐가 있어? /path/to/image.png"

대화 모드 슬래시 명령어

ollama run으로 대화 모드에 들어가면 /로 시작하는 특수 명령어를 사용할 수 있습니다:

명령어 기능
/? 또는 /help 사용 가능한 명령어 목록 표시
/bye 또는 /exit 대화 종료
/show info 현재 모델의 상세 정보 표시
/show modelfile 현재 모델의 Modelfile 내용 표시
/show license 모델 라이선스 정보 표시
/set parameter temperature 0.9 창의성 조절 (0~2, 높을수록 창의적)
/set parameter num_ctx 8192 컨텍스트 창 크기 변경
/set parameter top_p 0.9 Top-p 샘플링 값 조절
/save 세션이름 현재 대화 세션 저장
/load 세션이름 저장된 세션 불러오기

실전에서 자주 쓰는 조합:

>>> /set parameter temperature 0.1
Set parameter 'temperature' to '0.1'

>>> /set parameter num_ctx 16384
Set parameter 'num_ctx' to '16384'

temperature를 낮추면 일관성 있는 답변(코딩, 번역에 적합), 높이면 창의적인 답변(글쓰기, 브레인스토밍에 적합)을 얻을 수 있습니다.

모델 실행 상태 관리

ollama ps — 실행 중인 모델 확인

ollama ps

출력 예시:

NAME              ID              SIZE     PROCESSOR       CONTEXT  UNTIL
llama3.2:latest   a80c4f17acd5    2.0 GB   67%/33% CPU/GPU 2048     4 minutes

이 출력에서 중요한 정보:

  • SIZE — 모델이 점유하는 메모리
  • PROCESSOR — CPU와 GPU 분담 비율
  • CONTEXT — 현재 컨텍스트 창 크기
  • UNTIL — 비활동 시 자동 언로드까지 남은 시간

ollama stop — 모델 중지

ollama stop llama3.2

메모리에서 모델을 내립니다. GPU/RAM이 부족할 때 다른 모델을 실행하기 전에 기존 모델을 내려야 할 때 사용합니다.

ollama show — 모델 상세 정보

ollama show llama3.2

모델의 파라미터 수, 양자화 레벨, 컨텍스트 길이, 라이선스, 시스템 프롬프트 등 상세 정보를 확인할 수 있습니다.

커스텀 모델 만들기 — Modelfile

Ollama의 가장 강력한 기능 중 하나입니다. 기존 모델에 나만의 시스템 프롬프트, 파라미터를 설정해서 커스텀 모델을 만들 수 있습니다. Docker의 Dockerfile과 비슷한 개념입니다.

Modelfile 작성

# Modelfile
FROM llama3.2

# 시스템 프롬프트 설정
SYSTEM """
너는 시니어 인프라 엔지니어야.
답변은 항상 한국어로 하고, 리눅스 명령어를 포함할 때는 실행 예시도 함께 보여줘.
모르는 건 모른다고 솔직하게 말해.
"""

# 파라미터 설정
PARAMETER temperature 0.3
PARAMETER num_ctx 8192
PARAMETER top_p 0.9

ollama create — 커스텀 모델 생성

# Modelfile로 커스텀 모델 생성
ollama create infra-assistant -f Modelfile

# 실행
ollama run infra-assistant

이렇게 만든 커스텀 모델은 ollama ls에서 일반 모델과 동일하게 관리됩니다.

Modelfile 주요 지시어

지시어 기능 예시
FROM 베이스 모델 지정 FROM llama3.2
SYSTEM 시스템 프롬프트 SYSTEM "너는 파이썬 전문가야"
PARAMETER 파라미터 설정 PARAMETER temperature 0.5
TEMPLATE 프롬프트 템플릿 커스텀 (고급 사용)
ADAPTER LoRA 어댑터 적용 ADAPTER ./my-lora.gguf
LICENSE 라이선스 정보 추가 LICENSE "MIT"

💡 로컬 LLM을 텔레그램 봇에 연결하면 나만의 AI 비서를 만들 수 있습니다. → 텔레그램 봇에 LLM을 연결해 나만의 AI 비서 만들기

실전 활용 예제

1. 코드 리뷰 자동화

# 파이썬 파일을 모델에 넘겨서 리뷰 받기
cat app.py | ollama run llama3.2 "이 코드의 버그와 개선점을 찾아줘"

# 결과를 파일로 저장
cat app.py | ollama run llama3.2 "코드 리뷰해줘" > review.md

2. 로그 분석

# Apache 에러 로그 분석
tail -50 /var/log/apache2/error.log | ollama run llama3.2 "이 에러 로그를 분석하고 해결 방법을 알려줘"

3. 번역

ollama run llama3.2 "다음을 한국어로 번역해줘: The server responded with a 502 Bad Gateway error after the upstream connection timed out."

4. Bash 스크립트 자동화

#!/bin/bash
# daily-summary.sh — 매일 서버 상태를 LLM으로 요약

STATUS=$(top -bn1 | head -20)
DISK=$(df -h)
MEMORY=$(free -h)

echo "서버 상태 요약:
CPU/프로세스: $STATUS
디스크: $DISK
메모리: $MEMORY" | ollama run llama3.2 "위 서버 상태를 한국어로 간단히 요약하고 주의사항을 알려줘" > /tmp/daily-report.txt

Ollama REST API — 외부 앱 연동

Ollama는 기본으로 localhost:11434에서 REST API를 제공합니다. Python, JavaScript 등에서 바로 호출할 수 있습니다.

API 기본 사용 (curl)

# 서버 상태 확인
curl http://localhost:11434

# 단일 프롬프트 요청
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "대한민국의 수도는?",
  "stream": false
}'

# 대화형 요청 (chat)
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "system", "content": "너는 한국어 전문 번역가야."},
    {"role": "user", "content": "Translate this to Korean: Hello World"}
  ],
  "stream": false
}'

Python에서 사용

import requests
import json

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "llama3.2",
    "prompt": "Python으로 피보나치 함수 작성해줘",
    "stream": False
})

result = response.json()
print(result["response"])

주요 API 엔드포인트

엔드포인트 메서드 기능
/api/generate POST 단일 프롬프트 응답 생성
/api/chat POST 대화형 (멀티턴) 응답
/api/embeddings POST 텍스트 임베딩 생성
/api/tags GET 설치된 모델 목록 조회
/api/show POST 모델 상세 정보 조회
/api/pull POST 모델 다운로드
/api/delete DELETE 모델 삭제

외부 접근 허용 (다른 기기에서 접속)

기본적으로 Ollama는 localhost에서만 접근 가능합니다. 다른 기기에서 접속하려면 환경변수를 설정해야 합니다:

# 모든 인터페이스에서 접근 허용
OLLAMA_HOST=0.0.0.0:11434 ollama serve

# 또는 systemd 서비스 설정에 추가 (Linux)
sudo systemctl edit ollama

# 아래 내용 추가:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

# 서비스 재시작
sudo systemctl restart ollama

⚠️ 보안 주의: 외부 접근을 허용할 때는 반드시 방화벽 설정으로 허용된 IP만 접근할 수 있게 하세요. Ollama API에는 인증 기능이 없으므로 누구나 모델을 실행할 수 있습니다.

유용한 환경변수

환경변수 기능 기본값
OLLAMA_HOST 서버 바인드 주소 127.0.0.1:11434
OLLAMA_MODELS 모델 저장 경로 ~/.ollama/models
OLLAMA_NUM_PARALLEL 병렬 요청 수 자동
OLLAMA_MAX_LOADED_MODELS 동시 로드 가능한 모델 수 자동
OLLAMA_DEBUG 디버그 모드 0
OLLAMA_GPU_OVERHEAD GPU 오버헤드 바이트 자동

모델 저장 경로를 변경하면 용량이 큰 외장 SSD로 모델을 옮길 수 있습니다:

# 모델 저장 경로 변경 (예: 외장 드라이브)
export OLLAMA_MODELS=/mnt/external-ssd/ollama/models

RAM/GPU별 추천 모델

Ollama를 쓸 때 가장 중요한 건 내 PC 사양에 맞는 모델을 고르는 것입니다.

사양 추천 모델 모델 크기
RAM 8GB (GPU 없음) llama3.2:1b, gemma3:1b, phi4-mini ~1GB
RAM 16GB (GPU 없음) llama3.2:3b, gemma3:4b ~2~3GB
RAM 16GB + GPU 8GB llama3.2:latest, deepseek-r1:7b ~4~5GB
RAM 32GB + GPU 12GB+ gemma3:12b, deepseek-r1:14b ~7~9GB
RAM 64GB + GPU 24GB+ llama3.3:70b, deepseek-r1:32b ~20~40GB

팁: 모델 이름의 숫자(1b, 3b, 7b, 14b, 70b)는 파라미터 수입니다. 숫자가 클수록 성능이 좋지만 그만큼 메모리를 많이 씁니다. 본인 PC 사양에 맞는 모델을 선택하세요.

💡 EC2 같은 클라우드 서버에서 Ollama를 돌릴 때 메모리 관리가 중요합니다. 메모리 부족으로 서버가 죽을 수 있거든요. → EC2 OOM Kill — 새벽에 서버가 죽었다, 범인은 메모리였다

문제 해결 (트러블슈팅)

Ollama 서버가 안 뜰 때

# 서비스 상태 확인
systemctl status ollama

# 로그 확인
journalctl -u ollama.service -f

# 포트 충돌 확인
lsof -i :11434

메모리 부족 에러

# 현재 실행 중인 모델 확인
ollama ps

# 불필요한 모델 중지
ollama stop 모델이름

# 더 작은 모델로 변경
ollama run llama3.2:1b  # 1B 파라미터 버전

GPU가 인식되지 않을 때

# NVIDIA GPU 확인
nvidia-smi

# Ollama 디버그 모드로 실행
OLLAMA_DEBUG=1 ollama serve

마무리 — Ollama 한 줄 요약

Ollama는 "로컬 LLM의 Docker"입니다. docker pull처럼 ollama pull로 모델을 받고, docker run처럼 ollama run으로 실행합니다. Dockerfile처럼 Modelfile로 커스터마이징하고, REST API로 외부 앱과 연동합니다.

이 글의 명령어들을 즐겨찾기해두고, 필요할 때 찾아 쓰시면 됩니다. 처음이라면 ollama run llama3.2 한 줄부터 시작하세요. 내 PC에서 AI가 돌아가는 경험, 생각보다 신기합니다.

📖 OpenRouter를 이용하면 무료 크레딧으로 클라우드 LLM도 API 연동할 수 있습니다. → OpenRouter GPT-4o-mini 무료 크레딧으로 API 연동하는 법

댓글 남기기