社内LLM実現の現実的な考察 | NEWS

ChatGPTが登場して以来、LLMをビジネスに活用する流れは急速に広がっています。OpenAIやAnthropicのAPIを使えば、高度な自然言語処理を手軽に組み込めるようになり、多くの企業がその恩恵を享受しています。しかし一方で、「APIに頼り続けることへの不安」が経営層やエンジニアの間で静かに高まりつつあります。本稿では、社内でLLMを運用する、いわゆる社内LLMやオンプレLLMと呼ばれる構成の現実的な可能性を、2025年後半時点のデータと技術動向をもとに整理します。

LLMは今、何ができて、何ができないのか

社内LLMの話をする前に、そもそもLLMの現在地を確認しておく必要があります。「AIが何でもできる」という誇張と、「まだ使い物にならない」という過小評価の両方が混在しているからです。

今、確実にできること

文書の要約・分類・抽出は、現在のLLMが最も安定して高い精度を発揮するタスクです。社内マニュアル、契約書、会議議事録などを要約させたり、メールをカテゴリ分けさせたりする用途では、人間の担当者に近い品質が得られます。

コーディング支援も実用域に達しています。GitHub CopilotやCursor——いずれもClaudeやGPT-4をバックエンドに使っています——の普及につれ、「コードのドラフトを書いてもらい、人間がレビューする」というワークフローが定着しつつあります。コード生成を評価するHumanEvalというベンチマークでは、GPT-4oが90.2%、Claude 3.5 Sonnetが92.0%の正答率を示しており、単純なロジックや定型的なAPIコールであれば十分に実用的です^[1]。

定型的な文章生成も、人間の最終確認を前提にすれば業務効率を大きく高められます。メールの文案、製品説明の下書き、FAQ回答のドラフトといった用途がその典型です。

RAGとの組み合わせでは、社内ドキュメントを参照しながら回答する社内FAQ botやナレッジ検索が、最も費用対効果の高いユースケースとして多くの企業で検証されています。RAGはRetrieval-Augmented Generationの略で、検索と生成を組み合わせる手法です。

まだ難しいこと

複雑な推論と多段階の論理展開は、依然として課題が残ります。一見もっともらしい答えを返しながら、途中の論理が破綻しているケースがあります。2025年に発表されたLLMの限界に関するメタ分析では、推論能力の欠如、汎化の難しさ、幻覚と呼ばれる事実誤認が最も研究されている課題として挙がっており、研究コミュニティも問題を認識しています^[2]。

最新情報へのアクセスは、モデルの学習データに含まれない直近の出来事については対応できません。RAGや検索との組み合わせで一定程度は補えますが、完全な解決策にはなりません。

医療・法律・財務などの専門領域では、最先端モデルでも専門家と同等の精度には達していません。Nature誌の研究では、o1、Gemini、Claude、DeepSeekといった最先端モデルが、臨床推論テストで医師と比較して劣る結果を示しています^[3]。

長い文脈での一貫性も課題です。コンテキストウィンドウは広がっていますが、長いドキュメントの後半になるほど注意が散漫になる傾向があります。

実務への示唆

この整理から言えることは、LLMは人間の判断を置き換えるものではなく、人間が最終判断する前の素材を作るタスクに向いているということです。社内LLMを導入する際も、AIが自律的に業務を完結させる設計より、AIが下書きを作り人間が確認・修正する設計の方が現実的で、リスクも小さくなります。

APIは高いし、ロックインも怖い

LLM APIのコストは、ここ数年で劇的に下がってきました。Andreessen Horowitzのレポートによれば、2021年にGPT-3が公開された時点でのコストは100万トークンあたり60ドルでしたが、2024年には同等性能のモデルが0.06ドルで利用できるようになり、3年間で1,000倍のコスト削減が実現しています^[4]。Epoch AIのデータでも、LLM推論コストの急速な低下が確認されており、ベンチマークの性能水準によって年間9倍から900倍の幅で価格が下落しています^[5]。

この傾向だけを見ると、「自前で持つより買った方が安い」という結論になります。実際、多くの中小企業にとって現時点ではそれが正しいと思います。

しかし、コストだけが論点ではありません。

データのプライバシーとセキュリティの問題があります。社内の顧客データや未公開の財務情報、人事情報をAPIに投げることを許容できる企業ばかりではありません。規約上は学習に使われないとされていても、クラウドの外にデータを出すこと自体がリスクになる業種——医療、金融、行政など——では、そもそもAPI活用の選択肢が狭まります。

ベンダーロックインのリスクもあります。特定のモデルやAPIに深く依存したシステムを構築した後に、料金体系が変わったり、モデルが廃止されたり、会社が買収されたりするリスクは無視できません。OpenAIがGPT-3.5を段階的に廃止したように、クラウドサービスのライフサイクルはユーザー企業がコントロールできません。さらに極端なケースとして、利用規約違反の判定やプロバイダー側のポリシー変更により、ある日突然APIへのアクセスが停止されるリスクもゼロではありません。自社のビジネスがAPI一本に依存している場合、その瞬間に業務が止まります。

コストの予測可能性という観点もあります。トークン課金モデルは使えば使うほど青天井でコストが膨らみます。大量の社内ドキュメントを処理したり、チャットボットへのアクセス数が増えたりすると、月次コストが数倍に跳ね上がることがあります。オンプレであれば固定費になるため、財務計画が立てやすくなります。

社内LLMの選択肢

「社内でLLMを動かす」といっても、選択肢は一つではありません。大きく分けると次の3パターンになります。

① フルオンプレミス——自社にGPUサーバーを置く構成

物理サーバーにGPUを積み、オープンソースのLLMを動かす構成です。モデルが完全に手元に置けるため、データが外部に出ることはありません。

2025年時点でのハードウェアを整理すると、RTX 5090はMSRP 1,999ドルでVRAMが32GBあります。ただし、2025年前半は品薄が続いており、国内実勢価格はMSRPより高騰するケースがある点に留意が必要です^[6]。Llama 3.3 70Bを4ビット量子化で動かすには35〜40GBのVRAMが必要なため、1枚では70Bモデルには届きません。2枚構成にすると、特定のベンチマーク条件下（Q4_K_M量子化等）で最大27 tokens/sが報告されており、70Bクラスが動作します。初期投資は200〜300万円程度になります^[7]。32Bクラスまでであれば1枚でも対応可能です。

A100 80GBは新品で1枚150〜200万円が相場ですが、2025年時点ではH100への世代交代が進んでおり、中古・リファービッシュ市場も拡大しています。2枚あれば70Bモデルをフル精度で動かせますが、新品ハードウェアだけで400万円超の投資になります^[8]。

② クラウドGPU——専門プロバイダーのGPUインスタンスを借りる構成

AWS、GCP、Azure、あるいはLambda LabsやRunPodといった専門プロバイダーのGPUインスタンスを借りる構成です。VPC内に閉じた構成にすれば、データがモデルプロバイダーに渡ることはありません。A100 80GBのクラウドレンタルは最安値で時間あたり1.4ドル前後、Google Cloudでは4.27ドル前後が目安です^[9]。

初期投資が不要で柔軟にスケールできる反面、常時稼働させるとAPIより割高になることもあります。バッチ処理や特定時間帯のみの利用に向いています。

③ プライベートデプロイ型のマネージドサービス

Azure OpenAI ServiceやAmazon Bedrockのように、クラウドプロバイダーが自社インフラ内でLLMをホストしてくれるサービスです。データがモデルベンダーに渡らない設計になっているため、プライバシー面での要件をある程度満たしながら管理の手間を省けます。完全な社内LLMとは言えませんが、現実的な妥協点として多くの企業が選択しています。

オープンソースLLMは使い物になるのか

社内LLMを語るうえで避けて通れないのが、オープンソースLLMの品質です。かつては「GPT-4には遠く及ばない」と言われていたオープンソースLLMですが、2024〜2025年にかけて状況は大きく変わりました。

多分野の知識を問う標準ベンチマークMMLUでは、MetaのLlama 3.3 70Bが86.0%、DeepSeekのDeepSeek-V3が88.5%を記録しており、GPT-4oの88.7%にほぼ並んでいます^[10]。コーディングのHumanEvalではLlama 3.3 70Bが88.4%を記録し、GPT-4oの90.2%との差は2ポイント以内です。

なお、ベンチマークスコアはプロンプト設定（0-shot、5-shot、Chain of Thought等）の違いで数ポイント変動するため、モデル間の数ポイントの差に過度な意味を読み取るべきではありません。重要なのは、オープンソースモデルがプロプライエタリモデルとほぼ同等の水準に達しつつあるという大局的な傾向です。

AlibabaグループのQwen3-235Bは、自前でホストできるモデルとしてはプロプライエタリモデルと競争力のある水準に達しており、推論タスクにおいてはオープンソースの思考型モデルとして最高水準の性能を示しています^[11]。

ただし、これらのベンチマーク性能が実務のあらゆるタスクで同様に成立するわけではありません。社内文書の検索・要約や定型的なメール文案生成、コードレビュー補助といった用途に絞れば実用水準に達しているケースが多い一方、複雑な推論やニュアンスの細かい文章生成では先端のプロプライエタリモデルが優位です。

なお、OSS LLMの性能比較に関してはarXivに多くのプレプリントが投稿されています。これらは査読前の論文であり、数値の引用には一定の留保が必要です。

いつから現実的になるのか

「今すぐ自前でやるのは早い」という判断は、多くの企業にとって合理的です。では、いつ頃から社内LLMが現実的な選択肢になるのでしょうか。

オンプレ vs クラウドAPIのコスト比較を定量的に行ったarXivの論文では、モデルとAPIの組み合わせごとに損益分岐点を計算するフレームワークが提案されています。査読前のプレプリントではありますが、示されている構造的な知見は直感と一致しています——APIコストは使用量に比例してスケールするが、オンプレの最大コストはコンピュート基盤への初期投資であり、使用量が少ない段階ではAPIが有利、使用量が増えるにつれてオンプレが有利になる^[12]。

具体的な判断軸として、月間のAPI費用が50万円を超えるか、またはデータのプライバシー制約がある企業であれば、社内LLMへの投資を検討し始める価値があります。

ハードウェアコストは半導体の製造技術向上と競争激化により下がり続けており、また量子化技術や蒸留と呼ばれるモデル圧縮技術の進歩により、同等の性能をより少ないGPUメモリで実現できるようになっています。2024年に70Bモデルが必要だったタスクが、2026年には14Bモデルで対応できる可能性もあります。

クラウドGPUインスタンスのコモディティ化が進めば、2027〜2028年頃には月数万円で実用的なプライベートLLM環境を持てるようになるという見通しもあります。ただし、これは複数の要素に依存する予測であり、断言できるものではありません。

できるとしたら、どんな構成になるのか

実際に社内LLMを立ち上げる場合、次のような技術スタックが現実的です。

モデルサービング層には、vLLM、Ollama、Text Generation Inferenceといったオープンソースのサービングフレームワークが使われます。これらはOpenAI互換のAPIを提供しているため、既存のアプリケーションのエンドポイントを差し替えるだけで移行できるケースも多くあります。

RAGとの組み合わせが基本構成です。社内ドキュメント、マニュアル、過去の対応履歴などをベクトルDBに格納し、ユーザーの質問に対して関連ドキュメントを検索してからLLMに渡すことで、ハルシネーションを抑えつつ社内知識を活用できます。ChromaDB、Qdrant、pgvectorといったツールが選択肢として挙がります。

アクセス制御と監査ログも社内運用では重要です。誰がどういうプロンプトを投げたかのログを残すことは、セキュリティ要件であるだけでなく、モデルの品質改善やコスト分析にも役立ちます。

全体の構成イメージは次のとおりです。

ユーザー端末 / Slack / Webアプリ

        ↓

API Gateway  認証・レートリミット・ログ

        ↓

LLMサービング  vLLM / Ollama

        ↓

ベースモデル  Llama 3.3 70B / Qwen3 など  +  RAGパイプライン

        ↓

ベクトルDB  社内ドキュメント  +  構造化DB  メタデータ

GPU1〜2枚の小規模構成から始めて、需要に応じてスケールアウトする形が現実的です。最初から大規模な投資をするよりも、社内FAQボットやコードレビュー補助といった特定のユースケースに絞って小さく始め、効果を検証してから広げていくアプローチが失敗リスクを下げます。

まとめ：「今すぐ」でなくても「知っておく」べき時期

2025年時点では、ほとんどの中小企業にとって「社内LLMは時期尚早」という判断が合理的です。APIコストは下がり続けており、マネージドサービスの選択肢も充実しているため、急いで自前環境を構築する必要はありません。

しかし同時に、オープンソースLLMの品質向上スピードと、ハードウェアコストの低下トレンドを見ていると、3〜5年後には多くの企業にとって選択肢の一つになるという予測は現実的です。

「社内でLLMを持てるか」よりも「どのユースケースなら自前化の投資対効果が出るか」を考え始める段階に、業界全体がさしかかっています。今すぐ導入しなくても、技術動向を把握し、自社のユースケースを整理しておくことが、将来の意思決定を速くします。

脚注・参考文献

HumanEval ベンチマーク。GPT-4oのスコア（90.2%）はAnthropicモデルカードおよびOpenAI simple-evalsより、Claude 3.5 Sonnetのスコア（92.0%）はAnthropicモデルカード（2024年6月）より。DataCamp "Llama 3.3 70B" 解説ページ https://www.datacamp.com/blog/llama-3-3-70b および Artificial Analysis モデル比較 https://artificialanalysis.ai/models も参照。
Kostikova et al., "LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models", arXiv:2505.19240、査読前プレプリント。250,000以上の論文から14,648論文を分析。https://arxiv.org/abs/2505.19240
Nature Scientific Reports, 最先端LLMの臨床推論テストに関する研究、2025年。最も高いスコアを記録したDeepSeek-R1でも正答率52%にとどまり、医師の平均66%を大きく下回った。https://www.nature.com/articles/s41598-025-22940-0
Andreessen Horowitz, "Welcome to LLMflation" https://a16z.com/llmflation-llm-inference-cost/
Epoch AI, "LLM Inference Price Trends" https://epoch.ai/data-insights/llm-inference-price-trends 。なお、価格低下の速度はベンチマーク性能の水準によって年間9倍から900倍まで幅があり、直近1年の低下が特に大きい。
NVIDIA RTX 5090 仕様：VRAM 32GB GDDR7、メモリ帯域幅 1.79 TB/s、MSRP $1,999、2025年1月発売。2025年前半は品薄により国内実勢価格はMSRPを上回るケースあり。RunPod RTX 5090 レビュー https://www.runpod.io/articles/guides/nvidia-rtx-5090
DatabaseMart, "2×RTX 5090 Ollama Benchmark"。特定の量子化設定（Q4_K_M等）における70Bモデルでの測定結果であり、モデルや量子化方式により性能は変動する。https://www.databasemart.com/blog/ollama-gpu-benchmark-rtx5090-2
NVIDIA A100 80GB 新品 $15,000〜$20,000が2025年時点の相場。ただし、H100への世代交代に伴い中古・リファービッシュ市場も拡大しており、新品価格のみで判断すべきではない。Jarvis Labs, "NVIDIA A100 GPU Price Guide 2025" https://jarvislabs.ai/ai-faqs/nvidia-a100-gpu-price
Thunder Compute, "A100 GPU Pricing Showdown 2025"、A100 80GB 最安 $1.40/hr 前後、Google Cloud $4.27/hr 前後。https://www.thundercompute.com/blog/a100-gpu-pricing-showdown-2025-who-s-the-cheapest-for-deep-learning-workloads
MMLU スコア：Llama 3.3 70B が 86.0%（0-shot CoT、Meta公式）、DeepSeek-V3（chatモデル）が 88.5%（DeepSeek技術レポート）、GPT-4o が 88.7%（0-shot CoT、OpenAI simple-evals）。ベンチマークの評価設定（0-shot / 5-shot / CoT有無）により数ポイントの差が生じるため、異なる設定間の厳密な比較には注意が必要。Hugging Face Blog "LLM Comparison Test 2025" https://huggingface.co/blog/wolfram/llm-comparison-test-2025-01-02 および各モデル技術レポート参照。
Qwen3-235B-A22B-Thinking-2507 モデルカード。オープンソースの思考型モデルとして推論・数学・コーディング等で最高水準の性能を達成したと報告。https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
arXiv:2509.18101 "A Cost-Benefit Analysis of On-Premise Large Language Model Deployment: Breaking Even with Commercial LLM Services"、査読前プレプリント。https://arxiv.org/abs/2509.18101