ローカルLLMで社内チャットボット・FAQ構築｜導入手順とコスト削減効果

「同じ質問に何度も回答している」「社内の問い合わせ対応に時間を取られすぎている」——こうした課題を抱える中小企業は少なくありません。社内チャットボットやFAQシステムの導入は有効な解決策ですが、クラウドサービスの利用には情報漏洩リスクやコスト面の懸念があります。

本記事では、ローカルLLMを活用して社内チャットボット・FAQシステムを構築する方法を、導入手順からコスト削減効果まで実践的に解説します。すべてのデータが社内に留まるため、機密情報を安心して扱えるのが最大のメリットです。

なぜローカルLLMでチャットボットを構築すべきなのか

社内チャットボットの構築には複数のアプローチがありますが、ローカルLLMを選択することで得られるメリットは明確です。

従来のチャットボットの限界

ルールベースの従来型チャットボットは、事前に登録されたキーワードとパターンに基づいて回答を返す仕組みです。この方式には以下の限界があります。

想定外の表現や質問の仕方に対応できない
回答パターンの登録・メンテナンスに継続的な人手が必要
自然な対話ができず、利用者のストレスが増える
複合的な質問や文脈を踏まえた回答ができない

ローカルLLMチャットボットの優位性

LLMを活用したチャットボットは、自然言語を理解できるため、質問の表現に幅があっても適切に回答できます。さらに、ローカルで動作させることで以下のメリットが加わります。

データの安全性：社員の個人情報や業務機密を含む質問でも、データが社外に出ない
コストの予測可能性：従量課金がなく、月額のランニングコストが一定
カスタマイズ自由度：自社の用語やルールに合わせた調整が可能
オフライン動作：ネットワーク障害時でも利用可能

社内チャットボット構築に必要なコンポーネント

ローカルLLMを使ったチャットボットシステムは、以下のコンポーネントで構成されます。

システム構成の全体像

コンポーネント	役割	推奨ツール
LLMモデル	質問の理解と回答の生成	Gemma 3 4B、Qwen 3 7Bなど
推論エンジン	LLMの実行環境	Ollama、llama.cpp
チャットUI	ユーザーとの対話インターフェース	Open WebUI
RAG（任意）	社内文書を参照した回答生成	LlamaIndex、LangChain
ベクトルDB（任意）	文書の検索インデックス	ChromaDB、Qdrant

最小構成とフル構成

導入の段階に応じて、2つの構成を提案します。

最小構成（まずは試す段階）：

Ollama + Open WebUI + 軽量モデル（Gemma 3 4Bなど）
システムプロンプトで社内FAQの内容を直接記述
1台のPCで完結。追加ソフトウェアの導入不要

フル構成（本格運用段階）：

Ollama + Open WebUI + 高性能モデル + RAGシステム
社内文書を自動的に参照して回答を生成
専用サーバーまたは高スペックPCで運用

推奨モデルの選び方

チャットボット用途では、日本語の理解力と応答速度のバランスが重要です。主要モデルの比較を踏まえ、用途別のおすすめを紹介します。

用途別おすすめモデル

用途	推奨モデル	必要VRAM	特徴
軽量FAQ応答	Gemma 3 4B	約4GB	軽量で応答速度が速い
日本語品質重視	Qwen 3 7B	約6GB	日本語の自然さが優秀
複雑な質問対応	Qwen 3 14B	約10GB	推論力が高く、複合質問に対応
多言語対応	Gemma 3 12B	約10GB	複数言語のスタッフがいる環境向け

中小企業で最初に試すなら、Gemma 3 4BまたはQwen 3 7Bがおすすめです。どちらも一般的なビジネスPC（VRAM 8GB程度のGPU搭載）で十分に動作します。

構築手順：Ollama + Open WebUIで社内チャットボットを作る

最も手軽に社内チャットボットを構築できる、Ollama + Open WebUIの組み合わせでの手順を解説します。

Step 1：Ollamaのインストールとモデル導入

# Ollamaのインストール（macOS / Linux）
curl -fsSL https://ollama.com/install.sh | sh

# チャットボット用モデルのダウンロード
ollama pull gemma3:4b

# 動作確認
ollama run gemma3:4b
>>> テストメッセージ：こんにちは

Step 2：Open WebUIのインストール

Open WebUIはDockerを使って簡単にインストールできます。

# Dockerがインストールされていることを確認
docker --version

# Open WebUIの起動
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

起動後、ブラウザでhttp://localhost:3000にアクセスすると、チャットインターフェースが表示されます。初回はアカウント登録が必要です。

Step 3：チャットボット用のシステムプロンプト設定

Open WebUIの設定画面で、チャットボット用のシステムプロンプトを設定します。以下は社内FAQ用のプロンプト例です。

あなたは株式会社〇〇の社内アシスタントです。
以下のルールに従って回答してください：

1. 社内の規則・制度に関する質問に丁寧に回答する
2. 回答がわからない場合は「担当部署にお問い合わせください」と案内する
3. 個人的な意見や推測は述べず、事実に基づいた回答のみを行う
4. 回答は簡潔にまとめ、必要に応じて箇条書きを使う

【社内規則の概要】
- 勤務時間：9:00〜18:00（フレックスタイム制、コアタイム10:00〜15:00）
- 有給休暇：入社6ヶ月後に10日付与
- リモートワーク：週3日まで可能（事前申請制）
- 経費精算：月末締め、翌月15日払い
- ...（以下、社内のFAQ情報を記載）

このようにシステムプロンプトに社内情報を直接記述する方法は、最も簡単なFAQチャットボットの実現方法です。情報量が多い場合は、後述するRAGの導入が効果的です。

Step 4：社内ネットワークからアクセス可能にする

チャットボットを社内の他のメンバーにも使ってもらうために、LAN内からアクセスできるよう設定します。

# サーバーのIPアドレスを確認（Linuxの場合）
ip addr show

# ファイアウォールでポート3000を開放（必要に応じて）
sudo ufw allow 3000

社内の他のPCからhttp://[サーバーのIPアドレス]:3000にアクセスすれば、チャットボットを利用できます。

RAGを導入してFAQの品質を向上させる

システムプロンプトに記述できる情報量には限界があります。社内の規程集、マニュアル、過去のFAQ回答など大量の文書をもとに回答させたい場合は、RAG（検索拡張生成）の導入が有効です。

RAGの仕組み

RAGは以下の流れで動作します。

社内文書をベクトル化（数値の配列に変換）してデータベースに格納
ユーザーの質問をベクトル化し、関連性の高い文書を検索
検索結果をLLMに渡し、文書の内容に基づいた回答を生成

これにより、LLMが学習していない社内固有の情報についても正確な回答が可能になります。

Open WebUIでのRAG設定

Open WebUIにはRAG機能が組み込まれており、追加のセットアップなしでドキュメントのアップロードと参照が可能です。

Open WebUIの管理画面にログイン
「Documents」セクションから社内文書（PDF、テキストファイルなど）をアップロード
チャット画面で「#」を入力してドキュメントを選択すると、そのドキュメントを参照した回答が得られる

より本格的なRAGシステムを構築したい場合は、LlamaIndexやLangChainを使った独自構成も検討できます。

コスト削減効果の試算

ローカルLLMチャットボットの導入によるコスト削減効果を具体的に試算します。

導入コスト

項目	費用	備考
PC（既存利用の場合）	0円	VRAM 8GB以上のGPU搭載PCを転用
PC（新規購入の場合）	15〜30万円	RTX 4060〜4070搭載デスクトップ
ソフトウェア	0円	Ollama、Open WebUI、モデルすべて無料
セットアップ工数	1〜3日	IT担当者の作業時間

ランニングコストの比較

項目	ローカルLLM	クラウドAIチャットボット
月額基本料	0円	30,000〜100,000円
API利用料	0円	利用量に応じて変動
電気代	約2,000〜5,000円/月	含まれている
合計（月額）	約2,000〜5,000円	約30,000〜150,000円

クラウドAIチャットボットサービスと比較すると、ランニングコストを大幅に削減できます。初期投資（PC購入が必要な場合）を含めても、多くのケースで半年〜1年以内に投資回収が可能です。

業務効率化による間接的な効果

コスト削減に加え、以下の間接的な効果も期待できます。

問い合わせ対応時間の削減：総務・人事部門の対応工数が月間20〜40時間削減（事例より）
回答品質の均一化：担当者による回答のばらつきがなくなる
24時間対応：営業時間外でも社員が必要な情報にアクセス可能
ナレッジの蓄積：FAQデータが自然に蓄積され、組織の知的資産になる

運用のポイントと注意事項

回答精度を高めるためのコツ

システムプロンプトの継続的改善：実際の質問パターンを分析し、プロンプトを定期的に更新する
回答できない質問の明示：LLMが回答に自信がない場合に「担当者に確認してください」と案内するよう設定する
社内文書の整備：RAGの効果を高めるために、参照元の文書を正確で最新の状態に保つ
フィードバック収集：利用者からの「この回答は正しかった/間違っていた」というフィードバックを集める仕組みを作る

セキュリティ面の考慮事項

ローカル環境での運用でも、基本的なセキュリティ対策は必要です。

Open WebUIへのアクセスはユーザー認証を有効にする
社内ネットワーク外からのアクセスをファイアウォールで制限する
チャットログの保管ポリシーを決めておく
管理者権限と一般ユーザー権限を分けて運用する

まとめ：ローカルLLMチャットボットで社内の問い合わせ対応を革新する

ローカルLLMを活用した社内チャットボット・FAQシステムは、中小企業にとって導入効果の高いAI活用方法です。ポイントを整理します。

Ollama + Open WebUIで、専門知識がなくても短期間で構築可能
データが社外に出ないため、機密情報を含む問い合わせにも安心して対応
クラウドサービスと比べてランニングコストを大幅に削減できる
RAGを導入すれば、社内文書に基づいた高精度な回答が可能
定型的な問い合わせの自動化で、総務・人事部門の工数を大幅に削減

まずはOllamaのセットアップとOpen WebUIの導入から始めてみてください。推奨モデルの比較も参考にしながら、自社に合ったチャットボットを構築していきましょう。

ローカルLLMで社内チャットボット・FAQ構築｜導入手順とコスト削減効果

なぜローカルLLMでチャットボットを構築すべきなのか

従来のチャットボットの限界

ローカルLLMチャットボットの優位性

社内チャットボット構築に必要なコンポーネント

システム構成の全体像

最小構成とフル構成

推奨モデルの選び方

用途別おすすめモデル

構築手順：Ollama + Open WebUIで社内チャットボットを作る

Step 1：Ollamaのインストールとモデル導入

Step 2：Open WebUIのインストール

Step 3：チャットボット用のシステムプロンプト設定

Step 4：社内ネットワークからアクセス可能にする

RAGを導入してFAQの品質を向上させる

RAGの仕組み

Open WebUIでのRAG設定

コスト削減効果の試算

導入コスト

ランニングコストの比較

業務効率化による間接的な効果

運用のポイントと注意事項

回答精度を高めるためのコツ

セキュリティ面の考慮事項

まとめ：ローカルLLMチャットボットで社内の問い合わせ対応を革新する

週1回、最新の技術記事をお届け

関連記事

Claude CodeでREST API開発｜設計からテストまでAI駆動で高速構築

Claude Codeでコードレビュー｜AIを活用した品質チェックとレビュー効率化

Claude Codeのコンテキスト管理術｜大規模プロジェクトで精度を維持する方法

Claude Codeのカスタムスラッシュコマンド作成ガイド｜独自ワークフローの自動化

Claude Codeでデータベース移行・マイグレーション｜安全なスキーマ変更の実践

Claude Codeでデバッグを効率化｜バグ修正・エラー解析の実践テクニック

Claude Codeでドキュメント自動生成｜README・API仕様書・技術文書の効率的な作り方

Claude Codeでエラーハンドリング実装｜堅牢なアプリケーションを構築するパターン集

Claude Codeでフロントエンド開発｜React・Next.jsのコンポーネント実装を高速化

AI活用のヒントをお探しですか？お気軽にご相談ください。