Ollamaは、ローカルLLMを最も手軽に始められるオープンソースツールです。ワンコマンドでモデルのダウンロードから実行までを完結でき、専門的な知識がなくても数分でAIとの対話を開始できます。
本記事では、Ollamaのインストールから基本的な使い方、業務活用に役立つ設定方法まで、初心者向けにステップバイステップで解説します。Windows・Mac・Linuxすべてのプラットフォームに対応した内容となっています。
Ollamaとは何か
Ollamaは、ローカル環境でLLM(大規模言語モデル)を簡単に実行するためのツールです。2023年にリリースされて以降、急速にユーザー数を伸ばし、2026年現在ではローカルLLM環境のデファクトスタンダードとも言える存在になっています。
Ollamaの主な特徴
- ワンコマンドでモデル実行:
ollama run モデル名だけでダウンロードと実行が完了 - 豊富なモデルライブラリ:Llama、Qwen、Gemma、Phi、Mistralなど主要モデルに対応
- OpenAI互換API:既存のOpenAI APIを利用したアプリケーションとの互換性あり
- クロスプラットフォーム:Windows、macOS、Linuxに対応
- GPU自動認識:NVIDIAやAMDのGPUを自動検出し、最適な設定で推論を実行
- 軽量な動作:バックグラウンドサービスとして動作し、システムリソースの消費が少ない
LM StudioがGUIベースのツールであるのに対し、Ollamaはコマンドラインベースのツールです。CLIに慣れている方や、スクリプトからの自動化を重視する方には特におすすめです。
Ollamaのインストール方法
Ollamaのインストールは非常にシンプルです。各OSごとの手順を解説します。
Windows へのインストール
Windowsでは、公式サイトからインストーラをダウンロードして実行するだけです。
- Ollama公式サイトにアクセス
- 「Download for Windows」をクリック
- ダウンロードされたインストーラ(OllamaSetup.exe)を実行
- インストールウィザードに従って進める
- インストール完了後、コマンドプロンプトまたはPowerShellで確認
ollama --version
バージョン番号が表示されればインストール成功です。
macOS へのインストール
macOSでは、公式サイトからのダウンロードまたはHomebrewでインストールできます。
# 公式のインストールスクリプト
curl -fsSL https://ollama.com/install.sh | sh
# またはHomebrewを利用
brew install ollama
Apple SiliconのMacでは、ユニファイドメモリがVRAMとして活用されるため、効率的にローカルLLMを実行できます。
Linux へのインストール
Linuxでは、公式のインストールスクリプトを使用します。
curl -fsSL https://ollama.com/install.sh | sh
NVIDIA GPUを利用する場合は、事前にCUDAドライバがインストールされている必要があります。Ubuntu 22.04以降であれば、以下のコマンドでドライバをインストールできます。
sudo apt install nvidia-driver-550
基本的な使い方:モデルのダウンロードと実行
インストールが完了したら、早速モデルを実行してみましょう。
モデルの実行(runコマンド)
最も基本的な操作は ollama run コマンドです。モデルがローカルに存在しない場合は自動的にダウンロードされます。
# Llama 4 Scout(8B)を実行
ollama run llama4-scout
# Qwen3の8Bモデルを実行
ollama run qwen3:8b
# Gemma 3の4Bモデルを実行
ollama run gemma3:4b
# Phi-3 Miniを実行
ollama run phi3:mini
コマンドを実行すると対話モードに入り、プロンプトに質問を入力するとAIが応答します。対話モードを終了するには /bye と入力します。
おすすめのモデル選び
初めての方は、PCスペックに合わせて以下のモデルから試してみてください。
| PCスペック | おすすめモデル | コマンド |
|---|---|---|
| GPU無し・RAM 8GB | Gemma 3 1B | ollama run gemma3:1b |
| GPU無し・RAM 16GB | Phi-3 Mini 3.8B | ollama run phi3:mini |
| VRAM 8GB以上 | Qwen3 8B | ollama run qwen3:8b |
| VRAM 16GB以上 | Qwen3 14B | ollama run qwen3:14b |
| VRAM 24GB以上 | Llama 4 Scout | ollama run llama4-scout |
日本語での利用を重視する場合は、Qwen3が特に高い精度を発揮します。おすすめモデルの比較も参考にしてください。
モデル管理コマンド
ダウンロード済みのモデルを管理するための基本コマンドを紹介します。
# ダウンロード済みモデルの一覧表示
ollama list
# モデルのダウンロード(実行せずにダウンロードのみ)
ollama pull qwen3:8b
# モデルの削除
ollama rm qwen3:8b
# モデルの詳細情報を表示
ollama show qwen3:8b
Ollama APIの活用方法
Ollamaはデフォルトでポート11434にAPIサーバーを起動しており、HTTP経由でモデルにアクセスできます。これにより、他のアプリケーションやスクリプトからOllamaのモデルを呼び出すことが可能です。
基本的なAPI呼び出し
# チャット形式のAPI呼び出し
curl http://localhost:11434/api/chat -d '{
"model": "qwen3:8b",
"messages": [
{"role": "user", "content": "中小企業のDX推進で最初に取り組むべきことは何ですか?"}
],
"stream": false
}'
OpenAI互換APIの利用
OllamaはOpenAI互換のAPIエンドポイントを提供しており、OpenAIのライブラリやツールをそのまま利用できます。
# OpenAI互換エンドポイント
curl http://localhost:11434/v1/chat/completions -d '{
"model": "qwen3:8b",
"messages": [
{"role": "user", "content": "議事録を要約してください。"}
]
}'
Pythonからは以下のように利用できます。
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 任意の文字列でOK
)
response = client.chat.completions.create(
model="qwen3:8b",
messages=[
{"role": "user", "content": "売上報告書の下書きを作成してください。"}
]
)
print(response.choices[0].message.content)
この互換性を活かして、APIサーバーとして社内の様々なシステムと連携させることができます。
Modelfileによるカスタマイズ
Ollamaでは「Modelfile」を使って、モデルの動作をカスタマイズできます。システムプロンプトの設定やパラメータの調整が可能です。
Modelfileの作成例
例えば、社内ヘルプデスク用のカスタムモデルを作成する場合:
# helpdesk-modelfile という名前でファイルを作成
FROM qwen3:8b
SYSTEM """あなたは社内ITヘルプデスクのアシスタントです。
以下のルールに従って回答してください:
- 丁寧な日本語で回答する
- 手順は番号付きリストで説明する
- 不明な点がある場合は「IT部門にお問い合わせください」と案内する
- 社外秘の情報に言及しない"""
PARAMETER temperature 0.3
PARAMETER num_ctx 4096
このModelfileからカスタムモデルを作成します。
# カスタムモデルの作成
ollama create helpdesk -f helpdesk-modelfile
# カスタムモデルの実行
ollama run helpdesk
業務用途に特化したプロンプトを組み込んだモデルを作成しておくことで、エンドユーザーは特別な知識なしに適切なAI回答を得られるようになります。
Open WebUIとの連携
コマンドラインでの操作に慣れていない社員にもローカルLLMを使ってもらうには、Open WebUIとの連携がおすすめです。Open WebUIは、ChatGPTライクなWebインターフェースを提供するオープンソースプロジェクトで、Ollamaとシームレスに統合できます。
Dockerを使った簡単セットアップ
# Open WebUIの起動(OllamaがlocalhostでPCに直接動いている場合)
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--name open-webui \
ghcr.io/open-webui/open-webui:main
起動後、ブラウザで http://localhost:3000 にアクセスすると、チャット形式のUIが表示されます。Ollamaでダウンロード済みのモデルが自動的に選択可能になります。
この構成により、ITリテラシーに関係なく社内の誰もがローカルLLMを利用できる環境が整います。チャットボット・FAQ対応のシステムとしても活用できます。
トラブルシューティング
Ollamaの利用中に発生しやすい問題と対処法をまとめます。
モデルのダウンロードが途中で止まる
ネットワーク環境が不安定な場合に発生します。再度 ollama pull モデル名 を実行すれば、中断した位置からダウンロードが再開されます。社内プロキシ環境下では、環境変数 HTTPS_PROXY の設定が必要な場合があります。
GPUが認識されない
NVIDIA GPUの場合、以下を確認してください。
nvidia-smiコマンドでGPUが認識されているか- CUDAドライバのバージョンが要件を満たしているか(CUDA 11.7以上推奨)
- Ollamaを再起動してGPUの再検出を試みる:
sudo systemctl restart ollama(Linux)
メモリ不足エラー
「out of memory」エラーが出る場合は、より小さなモデルに切り替えるか、量子化レベルの低いバージョンを使用してください。例えば qwen3:8b-q4 のように、量子化レベルを明示的に指定できる場合があります。
推論速度が遅い
GPU推論が有効になっているか確認してください。ollama run 実行時に表示される情報で、GPUが利用されているかを確認できます。パフォーマンス最適化ガイドも参考にしてください。
まとめ:Ollamaでローカルai活用を始めよう
Ollamaは、ローカルLLMの導入障壁を大幅に下げるツールです。本記事の内容を振り返ります。
- インストールは数分で完了:全主要OSに対応し、専門知識不要
- ワンコマンドでモデル実行:
ollama run モデル名だけで即座にAIとの対話が開始 - 豊富なモデルライブラリ:Llama 4、Qwen3、Gemma 3など主要モデルをサポート
- OpenAI互換API:既存のシステムやツールとの連携が容易
- Modelfileでカスタマイズ:業務用途に特化したモデル設定が可能
- Open WebUIとの連携:ChatGPTライクなUIを社内に展開可能
まずは自分のPCスペックを確認し、対応するモデルを一つ動かしてみることから始めましょう。ローカルLLMのメリット・デメリットを理解した上で、段階的に業務活用を広げていくことが成功の鍵です。
関連記事
Claude CodeでREST API開発|設計からテストまでAI駆動で高速構築
Claude Codeでコードレビュー|AIを活用した品質チェックとレビュー効率化
Claude Codeのコンテキスト管理術|大規模プロジェクトで精度を維持する方法
Claude Codeのカスタムスラッシュコマンド作成ガイド|独自ワークフローの自動化
Claude Codeでデータベース移行・マイグレーション|安全なスキーマ変更の実践
Claude Codeでデバッグを効率化|バグ修正・エラー解析の実践テクニック
Claude Codeでドキュメント自動生成|README・API仕様書・技術文書の効率的な作り方
Claude Codeでエラーハンドリング実装|堅牢なアプリケーションを構築するパターン集