Mistral・Mixtralのローカル実行ガイド｜高性能フランス発LLMの特徴と使い方

フランスのAI企業Mistral AIが開発する「Mistral」および「Mixtral」は、ヨーロッパ発のオープンソースLLMとして世界的に高い評価を受けています。特にMixtralが採用するMoE（Mixture of Experts）アーキテクチャは、パラメータ数に対して効率的な推論を実現し、ローカル環境での運用に大きなメリットをもたらします。

本記事では、MistralとMixtralの違いや特徴を整理し、OllamaやLM Studioを使ったローカル環境での導入手順を、中小企業のIT担当者向けにわかりやすく解説します。

Mistral AIとは？フランス発AI企業の概要

Mistral AIは、2023年にフランス・パリで設立されたAIスタートアップです。Meta（旧Facebook）やGoogle DeepMindの研究者が中心となって創業し、設立からわずか数ヶ月で高性能なオープンソースLLMを次々と公開して注目を集めました。

欧州のAI規制（EU AI Act）に準拠したモデル開発を進めており、プライバシーやデータ主権を重視する企業にとって、信頼性の高い選択肢として評価されています。

Mistral AIの主要モデル一覧

Mistral AIはさまざまなモデルを公開しています。ローカル実行に適した主要モデルを整理します。

Mistral 7B：7Bパラメータの基本モデル。軽量ながら高い性能を誇る
Mixtral 8x7B：MoEアーキテクチャ採用。総パラメータ46.7Bだが推論時は約12.9Bで動作
Mixtral 8x22B：大規模MoEモデル。総パラメータ141Bだが推論時は約39Bで動作
Mistral Small / Mistral Nemo：最新世代の効率化されたモデル。ローカル実行に最適化

MoE（Mixture of Experts）アーキテクチャとは

Mixtralの最大の特徴は、MoE（Mixture of Experts：混合専門家）アーキテクチャを採用している点です。この仕組みを理解することが、Mixtralを適切に運用するうえで重要になります。

MoEの仕組み

通常のLLMでは、入力されたテキストがモデルの全パラメータを通過して処理されます。一方、MoEアーキテクチャでは、モデル内部に複数の「エキスパート」（専門的なサブネットワーク）が存在し、入力に応じて最適なエキスパートのみが選択的に活性化されます。

たとえばMixtral 8x7Bの場合、8つのエキスパートのうち2つだけが各トークンの処理に使われます。これにより、総パラメータは46.7Bと大きいものの、推論時に実際に計算に使われるのは約12.9Bに抑えられます。

MoEがローカル実行にもたらすメリット

推論速度：全パラメータを使うモデルより高速に動作する
性能：総パラメータが多いため、同程度の推論コストのモデルより高い品質を実現
注意点：モデルファイル自体は総パラメータ分の容量が必要なため、VRAMまたはRAMの要件は大きい

つまり、MoEモデルは「大きなモデルの知識を持ちながら、小さなモデルの速度で動く」という利点がありますが、メモリ使用量は総パラメータ数に近い点に注意が必要です。

Mistral・Mixtral各モデルの必要スペックと選び方

ローカルLLM向けのPCスペックは、選択するモデルによって大きく異なります。以下に各モデルの目安をまとめます。

モデル	総パラメータ	推論時パラメータ	必要VRAM（Q4量子化）	必要RAM
Mistral 7B	7.3B	7.3B	約6GB	16GB
Mistral Nemo 12B	12B	12B	約8GB	16GB
Mixtral 8x7B	46.7B	12.9B	約26GB	32GB
Mixtral 8x22B	141B	39B	約80GB	64GB以上

中小企業におすすめのモデル選択

中小企業での実用を考えると、以下の選択がおすすめです。

手軽に始めたい場合：Mistral 7BまたはMistral Nemo 12B。一般的なビジネスPCでも動作可能
高品質な出力が必要な場合：Mixtral 8x7B。VRAM 24GB以上のGPU（RTX 4090など）が必要だが、MoEの恩恵で推論速度が速い
Mixtral 8x22B：個人や中小企業の通常のPC環境では現実的ではない。サーバー向け

コストパフォーマンスを重視するなら、量子化を適用したMistral Nemo 12Bが最も実用的な選択肢です。

OllamaでMistral・Mixtralを動かす手順

Ollamaを使えば、コマンド一つでMistral・Mixtralを起動できます。

Mistral 7Bの実行

# Mistral 7Bをダウンロードして実行
ollama run mistral

# 日本語で動作確認
>>> 請求書の処理を効率化する方法を3つ提案してください。

初回はモデルのダウンロード（約4GB）が行われます。ダウンロード完了後、対話モードに入ります。

Mistral Nemoの実行

# Mistral Nemo（12B）をダウンロードして実行
ollama run mistral-nemo

Mistral Nemoは、Mistral AIとNVIDIAが共同開発した12Bパラメータのモデルです。Mistral 7Bより高い性能を持ちながら、比較的手軽に動作します。

Mixtral 8x7Bの実行

# Mixtral 8x7Bをダウンロードして実行（VRAM 24GB以上推奨）
ollama run mixtral

Mixtral 8x7Bは量子化モデルでも約26GBのメモリを使用するため、VRAM 24GBのGPU単体では不足する場合があります。その場合、CPUオフロード（GPUとRAMを併用）で動作させることも可能ですが、推論速度は低下します。

LM StudioでMistral・Mixtralを動かす手順

GUIベースで操作したい場合は、LM Studioが便利です。

モデルの検索とダウンロード

LM Studioを起動し、検索バーに「mistral」または「mixtral」と入力します。さまざまな量子化バージョンが表示されるので、PCスペックに合ったものを選択します。

Mistral 7B Q4_K_M：約4.4GB。VRAM 6GB以上のGPUで快適に動作
Mistral Nemo Q4_K_M：約7.5GB。VRAM 8GB以上推奨
Mixtral 8x7B Q4_K_M：約26GB。VRAM 24GB以上、またはCPU + RAM 32GBでの動作

LM Studioでの設定ポイント

モデルを読み込む際、以下の設定を確認しておくと快適に利用できます。

Context Length：用途に応じて調整。長文処理が不要なら4096程度に設定するとメモリ節約になる
GPU Offload Layers：GPUに載せるレイヤー数。VRAMに余裕がなければ一部をCPUに回す設定が可能
Temperature：0.7がバランスの良い初期値。事実に基づく回答が必要なら0.3程度に下げる

Mistral・Mixtralの日本語性能と活用のコツ

Mistral・Mixtralは英語をメインに訓練されたモデルですが、日本語にも一定の対応力があります。ただし、Qwen 3やGemma 3と比べると日本語性能はやや劣る傾向があります。

日本語利用時のコツ

システムプロンプトの活用：「あなたは日本語で回答するアシスタントです。」と明示的に指示することで、安定した日本語出力が得られる
具体的な指示を出す：曖昧な質問より、具体的なタスク指示のほうが品質の高い日本語回答が返ってくる
英語との併用：技術的な質問は英語で行い、結果を日本語で要約させるという使い方も効果的

Mistral・Mixtralが得意な業務

英語ベースのモデルとしての強みを活かせる業務があります。

コード生成・レビュー：プログラミング関連のタスクは非常に高品質。コーディングアシスタントとして優秀
英文メール・文書の作成：海外取引先とのコミュニケーション支援
論理的な分析・推論：データ分析の方針立案や論理的な文書構造の設計
翻訳：英日・日英の翻訳タスクは比較的高い精度を発揮

Mistral・Mixtralと他のローカルLLMの比較

ローカルLLMのモデル比較において、Mistral・Mixtralの位置づけを整理します。

比較項目	Mistral / Mixtral	Llama 4	Gemma 3	Qwen 3
開発元	Mistral AI（仏）	Meta（米）	Google（米）	Alibaba（中）
最大の強み	MoEの効率性	大規模モデル性能	軽量・バランス	日本語性能
日本語性能	普通	良好	良好	非常に高い
コード生成	非常に高い	高い	高い	高い
必要リソース	モデルによる	やや多い	少ない	少ない
商用利用	Apache 2.0	条件付き	可能	可能