Gemma 3をローカルで動かす｜Googleの軽量LLMの特徴と導入方法

Googleが公開したオープンウェイトの軽量LLM「Gemma 3」は、高い性能と手軽さを兼ね備え、ローカル環境での運用に適したモデルとして注目を集めています。クラウドAPIに依存せずに自社内でAIを活用したいと考える中小企業にとって、有力な選択肢のひとつです。

本記事では、Gemma 3の特徴やモデルバリエーション、必要なPCスペック、そしてOllamaやLM Studioを使った具体的な導入手順まで、実践的に解説します。

Gemma 3とは？Googleが公開した軽量LLMの概要

Gemma 3は、Googleが2025年に公開したオープンウェイトの大規模言語モデルです。Googleの大規模モデル「Gemini」の技術をベースに、軽量化と効率化を追求して開発されました。商用利用も可能なライセンスで提供されており、企業での導入障壁が低い点が大きな特徴です。

「オープンウェイト」とは、モデルの重み（パラメータ）が公開されていることを意味します。これにより、ローカルLLMとして自社のPCやサーバー上で自由に動かすことが可能です。

Gemmaシリーズの進化の歴史

Gemmaシリーズは段階的に進化してきました。

Gemma 1（2024年2月）：2Bと7Bの2サイズで初公開。軽量モデルとしての基盤を確立
Gemma 2（2024年6月）：2B、9B、27Bの3サイズに拡大。性能が大幅に向上
Gemma 3（2025年3月）：1B、4B、12B、27Bの4サイズを展開。マルチモーダル対応や多言語性能が強化

バージョンを重ねるごとに、同じパラメータ数でもより高い性能を実現しており、特にGemma 3では日本語を含む多言語対応が大きく進歩しています。

Gemma 3の主な特徴

Gemma 3が他のローカルLLMと比較して優れている点を整理します。

マルチモーダル対応：4B以上のモデルでは画像入力にも対応。テキストだけでなく画像の理解・分析が可能
長いコンテキストウィンドウ：最大128Kトークンのコンテキスト長をサポートし、長文の処理に強い
多言語性能の向上：140以上の言語に対応し、日本語の理解・生成能力が従来バージョンから大きく改善
効率的な推論：パラメータ数あたりの性能が高く、限られたハードウェアリソースでも実用的に動作
商用利用可能：Gemma利用規約のもとで商用利用が許可されている

Gemma 3のモデルバリエーションと選び方

Gemma 3には4つのサイズバリエーションがあり、用途やハードウェアに応じて選択できます。SLM（小規模言語モデル）から中規模モデルまで幅広くカバーしている点が魅力です。

モデル	パラメータ数	必要VRAM目安	マルチモーダル	推奨用途
Gemma 3 1B	10億	約2GB	非対応	軽量タスク、組み込み、テスト用
Gemma 3 4B	40億	約4GB	対応	日常的な文書作成、チャットボット
Gemma 3 12B	120億	約10GB	対応	高品質な文章生成、業務分析
Gemma 3 27B	270億	約20GB	対応	高度な推論、専門的な分析

中小企業におすすめのモデルサイズ

中小企業での利用を考えると、Gemma 3 4BまたはGemma 3 12Bが現実的な選択肢です。

4Bモデルは、一般的なビジネスPC（VRAM 6GB以上のGPU搭載）で動作し、社内の問い合わせ対応や文書の下書き作成など、日常的な業務に十分な性能を発揮します。量子化を適用すれば、さらに少ないリソースでの運用も可能です。

12Bモデルは、より高品質な出力が求められる場面、たとえば顧客向け文書の作成や業務データの分析に適しています。VRAM 12GB以上のGPU（NVIDIA RTX 4070以上など）が推奨されます。

Gemma 3の動作に必要なPCスペック

ローカルLLMの推奨スペックはモデルサイズによって異なります。Gemma 3を快適に動かすための目安は以下の通りです。

Gemma 3 4Bの推奨スペック

GPU：NVIDIA RTX 3060（VRAM 12GB）以上、またはRTX 4060（VRAM 8GB）
RAM：16GB以上
ストレージ：SSD 10GB以上の空き容量
OS：Windows 10/11、macOS、Linux

量子化モデル（Q4_K_M）を使用すれば、VRAM 4GB程度でも動作可能です。Apple Silicon搭載のMacでも良好なパフォーマンスが得られます。

Gemma 3 12B/27Bの推奨スペック

GPU：NVIDIA RTX 4070 Ti（VRAM 12GB）以上。27Bの場合はRTX 4090（VRAM 24GB）推奨
RAM：32GB以上
ストレージ：SSD 30GB以上の空き容量

27Bモデルのフル精度での動作には高性能なGPUが必要ですが、量子化により必要VRAMを大幅に削減できます。4bit量子化を適用した27Bモデルは、VRAM 16GB程度で動作する場合もあります。

OllamaでGemma 3を動かす手順

Ollamaは、ローカルLLMを最も簡単に導入できるツールのひとつです。コマンド数行でGemma 3を起動できます。

Step 1：Ollamaのインストール

まだOllamaをインストールしていない場合は、公式サイトからダウンロードしてインストールします。

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windowsの場合は公式サイトからインストーラーをダウンロード

Step 2：Gemma 3モデルのダウンロードと実行

Ollamaでは、モデル名を指定するだけでダウンロードと実行が同時に行われます。

# Gemma 3 4Bモデルを実行（推奨・バランスが良い）
ollama run gemma3:4b

# Gemma 3 1Bモデル（軽量・テスト向け）
ollama run gemma3:1b

# Gemma 3 12Bモデル（高性能）
ollama run gemma3:12b

# Gemma 3 27Bモデル（最高性能・高スペックPC向け）
ollama run gemma3:27b

初回はモデルのダウンロードが行われるため、回線速度にもよりますが数分から十数分程度かかります。ダウンロードが完了すると、そのまま対話モードに入ります。

Step 3：日本語での動作確認

対話モードに入ったら、日本語で質問してみましょう。

>>> 中小企業がDXを進めるための最初のステップを3つ教えてください。

Gemma 3は日本語の理解・生成能力が高く、実用的な回答が得られるはずです。終了する場合は/byeと入力します。

LM StudioでGemma 3を動かす手順

LM StudioはGUIベースのツールで、コマンドライン操作に慣れていない方にも使いやすい選択肢です。

Step 1：LM Studioのインストールとモデル検索

LM Studioの公式サイトからアプリをダウンロード・インストールした後、アプリを起動します。検索バーに「gemma-3」と入力すると、利用可能なモデルの一覧が表示されます。

Step 2：量子化モデルの選択

検索結果から、自分のPCスペックに合った量子化レベルのモデルを選びます。一般的に以下の基準で選択するのがおすすめです。

Q4_K_M：品質とサイズのバランスが良い。最も一般的な選択肢
Q5_K_M：Q4よりやや高品質。VRAMに余裕がある場合におすすめ
Q8_0：高品質だがファイルサイズが大きい。高スペックPC向け

「Download」ボタンをクリックしてモデルをダウンロードしたら、左側メニューからチャット画面に移動してモデルを読み込み、対話を開始できます。

Gemma 3の日本語性能と実務での活用シーン

Gemma 3は多言語対応が大幅に強化されており、日本語においても実務で活用できるレベルの性能を持っています。ここでは具体的な活用シーンを紹介します。

ビジネス文書の作成支援

メールの下書き、報告書の要約、議事録の整理など、日常的な文書作成業務を効率化できます。議事録の自動要約は特に効果が高く、会議後の作業時間を大幅に短縮できます。

社内FAQチャットボットの構築

社内チャットボットのバックエンドとしてGemma 3を活用できます。4Bモデルでも、よくある質問への回答生成には十分な性能です。RAG（検索拡張生成）と組み合わせることで、社内文書に基づいた正確な回答を生成できます。

マルチモーダル活用（画像理解）

4B以上のモデルでは画像入力に対応しており、画像の説明生成、グラフの読み取り、スクリーンショットからの情報抽出などが可能です。マルチモーダルLLMとしての活用は、業務の幅をさらに広げます。

Gemma 3と他のローカルLLMの比較

ローカルで動かせるLLMは複数存在します。主要モデルの比較を踏まえ、Gemma 3の位置づけを整理します。

比較項目	Gemma 3	Llama 4	Qwen 3
開発元	Google	Meta	Alibaba
日本語性能	良好	良好	非常に高い
マルチモーダル	対応（4B以上）	対応	対応
最小モデル	1B	Scout（大規模）	0.6B
軽量動作	非常に良い	やや重い	非常に良い
商用利用	可能	可能（条件付き）	可能