Ollamaの使い方入門|インストールからモデル実行まで初心者向け完全ガイド

kento_morota 11分で読めます

Ollamaは、ローカルLLMを最も手軽に始められるオープンソースツールです。ワンコマンドでモデルのダウンロードから実行までを完結でき、専門的な知識がなくても数分でAIとの対話を開始できます。

本記事では、Ollamaのインストールから基本的な使い方、業務活用に役立つ設定方法まで、初心者向けにステップバイステップで解説します。Windows・Mac・Linuxすべてのプラットフォームに対応した内容となっています。

Ollamaとは何か

Ollamaは、ローカル環境でLLM(大規模言語モデル)を簡単に実行するためのツールです。2023年にリリースされて以降、急速にユーザー数を伸ばし、2026年現在ではローカルLLM環境のデファクトスタンダードとも言える存在になっています。

Ollamaの主な特徴

  • ワンコマンドでモデル実行ollama run モデル名 だけでダウンロードと実行が完了
  • 豊富なモデルライブラリ:Llama、Qwen、Gemma、Phi、Mistralなど主要モデルに対応
  • OpenAI互換API:既存のOpenAI APIを利用したアプリケーションとの互換性あり
  • クロスプラットフォーム:Windows、macOS、Linuxに対応
  • GPU自動認識:NVIDIAやAMDのGPUを自動検出し、最適な設定で推論を実行
  • 軽量な動作:バックグラウンドサービスとして動作し、システムリソースの消費が少ない

LM StudioがGUIベースのツールであるのに対し、Ollamaはコマンドラインベースのツールです。CLIに慣れている方や、スクリプトからの自動化を重視する方には特におすすめです。

Ollamaのインストール方法

Ollamaのインストールは非常にシンプルです。各OSごとの手順を解説します。

Windows へのインストール

Windowsでは、公式サイトからインストーラをダウンロードして実行するだけです。

  1. Ollama公式サイトにアクセス
  2. 「Download for Windows」をクリック
  3. ダウンロードされたインストーラ(OllamaSetup.exe)を実行
  4. インストールウィザードに従って進める
  5. インストール完了後、コマンドプロンプトまたはPowerShellで確認
ollama --version

バージョン番号が表示されればインストール成功です。

macOS へのインストール

macOSでは、公式サイトからのダウンロードまたはHomebrewでインストールできます。

# 公式のインストールスクリプト
curl -fsSL https://ollama.com/install.sh | sh

# またはHomebrewを利用
brew install ollama

Apple SiliconのMacでは、ユニファイドメモリがVRAMとして活用されるため、効率的にローカルLLMを実行できます。

Linux へのインストール

Linuxでは、公式のインストールスクリプトを使用します。

curl -fsSL https://ollama.com/install.sh | sh

NVIDIA GPUを利用する場合は、事前にCUDAドライバがインストールされている必要があります。Ubuntu 22.04以降であれば、以下のコマンドでドライバをインストールできます。

sudo apt install nvidia-driver-550

基本的な使い方:モデルのダウンロードと実行

インストールが完了したら、早速モデルを実行してみましょう。

モデルの実行(runコマンド)

最も基本的な操作は ollama run コマンドです。モデルがローカルに存在しない場合は自動的にダウンロードされます。

# Llama 4 Scout(8B)を実行
ollama run llama4-scout

# Qwen3の8Bモデルを実行
ollama run qwen3:8b

# Gemma 3の4Bモデルを実行
ollama run gemma3:4b

# Phi-3 Miniを実行
ollama run phi3:mini

コマンドを実行すると対話モードに入り、プロンプトに質問を入力するとAIが応答します。対話モードを終了するには /bye と入力します。

おすすめのモデル選び

初めての方は、PCスペックに合わせて以下のモデルから試してみてください。

PCスペック おすすめモデル コマンド
GPU無し・RAM 8GB Gemma 3 1B ollama run gemma3:1b
GPU無し・RAM 16GB Phi-3 Mini 3.8B ollama run phi3:mini
VRAM 8GB以上 Qwen3 8B ollama run qwen3:8b
VRAM 16GB以上 Qwen3 14B ollama run qwen3:14b
VRAM 24GB以上 Llama 4 Scout ollama run llama4-scout

日本語での利用を重視する場合は、Qwen3が特に高い精度を発揮します。おすすめモデルの比較も参考にしてください。

モデル管理コマンド

ダウンロード済みのモデルを管理するための基本コマンドを紹介します。

# ダウンロード済みモデルの一覧表示
ollama list

# モデルのダウンロード(実行せずにダウンロードのみ)
ollama pull qwen3:8b

# モデルの削除
ollama rm qwen3:8b

# モデルの詳細情報を表示
ollama show qwen3:8b

Ollama APIの活用方法

Ollamaはデフォルトでポート11434にAPIサーバーを起動しており、HTTP経由でモデルにアクセスできます。これにより、他のアプリケーションやスクリプトからOllamaのモデルを呼び出すことが可能です。

基本的なAPI呼び出し

# チャット形式のAPI呼び出し
curl http://localhost:11434/api/chat -d '{
  "model": "qwen3:8b",
  "messages": [
    {"role": "user", "content": "中小企業のDX推進で最初に取り組むべきことは何ですか?"}
  ],
  "stream": false
}'

OpenAI互換APIの利用

OllamaはOpenAI互換のAPIエンドポイントを提供しており、OpenAIのライブラリやツールをそのまま利用できます。

# OpenAI互換エンドポイント
curl http://localhost:11434/v1/chat/completions -d '{
  "model": "qwen3:8b",
  "messages": [
    {"role": "user", "content": "議事録を要約してください。"}
  ]
}'

Pythonからは以下のように利用できます。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意の文字列でOK
)

response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[
        {"role": "user", "content": "売上報告書の下書きを作成してください。"}
    ]
)
print(response.choices[0].message.content)

この互換性を活かして、APIサーバーとして社内の様々なシステムと連携させることができます。

Modelfileによるカスタマイズ

Ollamaでは「Modelfile」を使って、モデルの動作をカスタマイズできます。システムプロンプトの設定やパラメータの調整が可能です。

Modelfileの作成例

例えば、社内ヘルプデスク用のカスタムモデルを作成する場合:

# helpdesk-modelfile という名前でファイルを作成
FROM qwen3:8b

SYSTEM """あなたは社内ITヘルプデスクのアシスタントです。
以下のルールに従って回答してください:
- 丁寧な日本語で回答する
- 手順は番号付きリストで説明する
- 不明な点がある場合は「IT部門にお問い合わせください」と案内する
- 社外秘の情報に言及しない"""

PARAMETER temperature 0.3
PARAMETER num_ctx 4096

このModelfileからカスタムモデルを作成します。

# カスタムモデルの作成
ollama create helpdesk -f helpdesk-modelfile

# カスタムモデルの実行
ollama run helpdesk

業務用途に特化したプロンプトを組み込んだモデルを作成しておくことで、エンドユーザーは特別な知識なしに適切なAI回答を得られるようになります。

Open WebUIとの連携

コマンドラインでの操作に慣れていない社員にもローカルLLMを使ってもらうには、Open WebUIとの連携がおすすめです。Open WebUIは、ChatGPTライクなWebインターフェースを提供するオープンソースプロジェクトで、Ollamaとシームレスに統合できます。

Dockerを使った簡単セットアップ

# Open WebUIの起動(OllamaがlocalhostでPCに直接動いている場合)
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

起動後、ブラウザで http://localhost:3000 にアクセスすると、チャット形式のUIが表示されます。Ollamaでダウンロード済みのモデルが自動的に選択可能になります。

この構成により、ITリテラシーに関係なく社内の誰もがローカルLLMを利用できる環境が整います。チャットボット・FAQ対応のシステムとしても活用できます。

トラブルシューティング

Ollamaの利用中に発生しやすい問題と対処法をまとめます。

モデルのダウンロードが途中で止まる

ネットワーク環境が不安定な場合に発生します。再度 ollama pull モデル名 を実行すれば、中断した位置からダウンロードが再開されます。社内プロキシ環境下では、環境変数 HTTPS_PROXY の設定が必要な場合があります。

GPUが認識されない

NVIDIA GPUの場合、以下を確認してください。

  • nvidia-smi コマンドでGPUが認識されているか
  • CUDAドライバのバージョンが要件を満たしているか(CUDA 11.7以上推奨)
  • Ollamaを再起動してGPUの再検出を試みる:sudo systemctl restart ollama(Linux)

メモリ不足エラー

「out of memory」エラーが出る場合は、より小さなモデルに切り替えるか、量子化レベルの低いバージョンを使用してください。例えば qwen3:8b-q4 のように、量子化レベルを明示的に指定できる場合があります。

推論速度が遅い

GPU推論が有効になっているか確認してください。ollama run 実行時に表示される情報で、GPUが利用されているかを確認できます。パフォーマンス最適化ガイドも参考にしてください。

まとめ:Ollamaでローカルai活用を始めよう

Ollamaは、ローカルLLMの導入障壁を大幅に下げるツールです。本記事の内容を振り返ります。

  • インストールは数分で完了:全主要OSに対応し、専門知識不要
  • ワンコマンドでモデル実行ollama run モデル名 だけで即座にAIとの対話が開始
  • 豊富なモデルライブラリLlama 4Qwen3Gemma 3など主要モデルをサポート
  • OpenAI互換API:既存のシステムやツールとの連携が容易
  • Modelfileでカスタマイズ:業務用途に特化したモデル設定が可能
  • Open WebUIとの連携:ChatGPTライクなUIを社内に展開可能

まずは自分のPCスペックを確認し、対応するモデルを一つ動かしてみることから始めましょう。ローカルLLMのメリット・デメリットを理解した上で、段階的に業務活用を広げていくことが成功の鍵です。

#Ollama#ローカルLLM#使い方
共有:
無料メルマガ

週1回、最新の技術記事をお届け

AI・クラウド・開発の最新記事を毎週月曜にメールでお届けします。登録は無料、いつでも解除できます。

プライバシーポリシーに基づき管理します

AI活用のヒントをお探しですか?お気軽にご相談ください。

まずは話だけ聞いてもらう