Ollamaの最適なモデル選びとパソコンスペック

解析

この記事でわかること

  • Ollamaとは何か、なぜサイバーセキュリティと関係があるのか
  • LLM(大規模言語モデル)のしくみと「パラメータ数」の意味
  • 量子化(Quantization)がなぜ大事か
  • RAM・GPU・CPUのスペックとモデルサイズの関係
  • 主要モデル(Llama・Mistral・Gemma・Phi・DeepSeek・Qwen)の特性比較
  • 自分のパソコンスペック別おすすめモデル一覧

「AIをローカルで動かしてみたい」「でも何のモデルを選べばいいかわからない」「自分のパソコンでそもそも動くの?」

そんな疑問を、まったくの初心者でもわかるように、しくみから丁寧に解説します。サイバーセキュリティの文脈でも、AIをクラウドに依存せずローカルで動かすことはプライバシー保護・情報漏洩対策として非常に重要です。この記事を読み終えたとき、あなたはどのモデルを選べばよいかが明確になるはずです。


  1. 1. Ollamaとは何か? — まず「道具」を理解しよう
    1. Ollamaのしくみを超シンプルに説明すると
  2. 2. 「パラメータ数」って何? — AIの頭の大きさを知る
    1. パラメータ数とメモリの関係(基本計算式)
  3. 3. 量子化(Quantization)とは? — AIをギュッと圧縮する魔法
    1. 量子化レベルの種類と違い
  4. 4. パソコンスペックとOllamaの関係 — 何が重要なのか
    1. ① RAM(メモリ)— 最も重要な要素
    2. ② GPU(グラフィックカード)— 処理速度を決める
    3. ③ CPU — 影響は小さいがゼロではない
    4. ④ ストレージ — SSDが必須
  5. 5. 主要モデルの特性と比較 — どのモデルが何に向いているか
    1. ① Llama 3.x(Meta)— 最も人気のある汎用モデル
    2. ② Mistral / Mixtral(Mistral AI)— 効率と速度のバランス王
    3. ③ Gemma 2 / Gemma 3(Google)— 軽量・高品質の優等生
    4. ④ Phi-3 / Phi-4(Microsoft)— 「小さいのに賢い」驚異のモデル
    5. ⑤ DeepSeek-R1 / DeepSeek-V3(DeepSeek)— 推論特化の中国発モデル
    6. ⑥ Qwen 2.5 / Qwen 3(Alibaba)— アジア言語と多言語の王者
    7. ⑦ CodeLlama / DeepSeek-Coder — コーディング専門モデル
  6. 6. 全モデル比較表 — 用途・スペック・特性まとめ
  7. 7. スペック別おすすめモデル — あなたのPCに合った選び方
    1. パターン①:RAM 8GB・GPUなし(普通のノートPC)
    2. パターン②:RAM 16GB・GPU VRAM 8GB前後(ミドルレンジPC)
    3. パターン③:RAM 32GB・GPU VRAM 12〜16GB(ハイスペックPC)
    4. パターン④:RAM 64GB以上・GPU VRAM 24GB以上 / Apple M2 Max以上(ワークステーション)
  8. 8. セキュリティ用途別おすすめモデル
  9. 9. Ollamaのコマンド基礎 — 実際に動かしてみよう
  10. 10. よくある質問(FAQ)
    1. Q. インターネットなしでも動く?
    2. Q. MacのM1/M2/M3でも動く?
    3. Q. どのモデルを最初に試せばいい?
    4. Q. 量子化するとどのくらい賢さが落ちる?
    5. Q. GPU(グラフィックカード)は必須?
    6. Q. Windowsと Mac どちらが有利?
  11. まとめ — モデル選びの3ステップ

1. Ollamaとは何か? — まず「道具」を理解しよう

Ollamaとは、あなたのパソコンの中でAI(大規模言語モデル)を動かすためのソフトウェアです。ChatGPTやClaudeはクラウドサーバー上で動いており、入力したテキストはインターネット経由でサーバーに送られます。一方、Ollamaを使えばインターネットに接続せずに、自分のパソコンだけでAIを動かすことができます。

🔐 セキュリティ的に重要なポイント
クラウドAIに機密情報・顧客データ・社内文書を送ると、情報漏洩のリスクがあります。Ollamaを使ってローカルで動かせば、データは自分のパソコン外に一切出ません。ペネトレーションテストのレポート、マルウェア解析のログ、社内のセキュリティインシデント対応など、センシティブな情報を扱うプロほどローカルAIは有効です。

Ollamaのしくみを超シンプルに説明すると

Ollamaは内部で llama.cpp というエンジンを使っています。このエンジンのおかげで、本来スーパーコンピュータが必要なAIモデルを、一般的なノートパソコンでも動かせるように最適化されています。

モデルは GGUF(GPT-Generated Unified Format) という形式で保存されており、一つの巨大なファイルにAIの「頭の中」が詰め込まれています。Ollamaはこのファイルをメモリに読み込み、あなたの質問に答えます。

クラウドAI(ChatGPT等) ローカルAI(Ollama)
サーバーで動く 自分のPCで動く
インターネット必須 オフラインでもOK
データがサーバーに送られる データはPC外に出ない
利用料が発生することが多い 無料(電気代のみ)
高性能・最新モデル使用可 スペックに依存

2. 「パラメータ数」って何? — AIの頭の大きさを知る

モデルを選ぶとき必ず目にするのが「7B」「13B」「70B」という数字です。この「B」は Billion(10億) の略で、モデルのパラメータ数を表しています。

パラメータとは、AIが学習によって身につけた「記憶・知識・判断基準」の数です。人間に例えると、ニューロンの接続の数のようなものです。

📌 パラメータ数のイメージ

  • 1B〜3B(10〜30億):小学生レベル。単純な質問には答えられるが、複雑な推論は苦手
  • 7B〜8B(70〜80億):大学生レベル。日常的な作業なら十分こなせる
  • 13B〜14B(130〜140億):修士レベル。専門的な分析も可能
  • 30B〜34B:博士レベル。高度な推論・コーディングが得意
  • 70B〜72B:専門家レベル。商用AIに近い品質

ただし、パラメータ数が多ければ多いほど必要なメモリ(RAM/VRAM)も増えるため、大きなモデルを動かすには高いスペックが必要です。

パラメータ数とメモリの関係(基本計算式)

モデルを全精度(FP16)で動かした場合、必要なメモリの目安は次の計算式で求められます。

必要メモリ(GB)≒ パラメータ数(B) × 2

例:7Bモデル → 約14GB、13Bモデル → 約26GB

「え、7Bモデルを動かすのに14GBも必要なの?」と思った方、安心してください。ここで登場するのが「量子化」という技術です。


3. 量子化(Quantization)とは? — AIをギュッと圧縮する魔法

量子化とは、AIモデルのデータを圧縮して小さくする技術です。具体的には、モデルの重み(パラメータ)を表現する数値の精度を落とすことで、ファイルサイズとメモリ使用量を劇的に削減します。

量子化レベルの種類と違い

Ollamaで使われるGGUF形式では、主に以下の量子化レベルがあります。

量子化レベル 精度 メモリ削減率 品質への影響 おすすめ用途
FP16 16bit浮動小数点 なし(基準) なし(最高品質) 研究・高スペックGPU
Q8_0 8bit整数 約50%削減 ほぼなし 高VRAMのGPU
Q6_K 6bit 約62%削減 極めて小さい バランス重視
Q5_K_M 5bit 約69%削減 小さい バランス重視
Q4_K_M ⭐推奨 4bit 約75%削減 中程度 一般的なPC全般
Q3_K_M 3bit 約81%削減 やや大きい 低スペックPC
Q2_K 2bit 約87%削減 大きい メモリ非常に少ない場合

💡 具体例で理解する量子化の効果(7Bモデルの場合)

  • FP16(無圧縮):約14GB のメモリが必要
  • Q8_0:約7GB
  • Q4_K_M:約4〜5GB → 8GBのRAMでも動かせる!

実際に検証されたデータによると、70Bモデルを FP16 で動かすと約35GB必要ですが、Q4_K_M に量子化すると 約8〜10GBまで削減できます。

Ollamaでモデルを `ollama pull` するとき、デフォルトでは Q4_K_M が選ばれることが多く、これが品質とサイズのバランスが最も取れた「黄金の選択肢」とされています。


4. パソコンスペックとOllamaの関係 — 何が重要なのか

Ollamaの性能を左右するパーツは主に3つです。それぞれの役割を理解しましょう。

① RAM(メモリ)— 最も重要な要素

Ollamaでは、GPU(グラフィックカード)を持っていない場合、モデル全体がシステムRAMに読み込まれます。つまり、RAMの容量が「どのサイズのモデルを動かせるか」を直接決定します。

GPUがある場合はVRAM(ビデオメモリ)が優先されますが、VRAMに収まりきらない分はRAMで補われます(CPU推論になり速度は落ちます)。

RAM容量 動かせるモデルサイズ(目安) 具体的なモデル例 評価
8GB 1B〜7B(Q4量子化) Llama 3.2 3B, Phi-4 Mini, Gemma 3 4B △ 最低限
16GB 〜13B(Q4量子化) Llama 3.1 8B, Mistral 7B, Gemma 2 9B ○ 実用的
32GB 〜30B(Q4量子化) CodeLlama 13B, Qwen2.5 14B, Phi-4 14B ◎ 快適
64GB 〜70B(Q4量子化) Llama 3.3 70B, Qwen2.5 72B 🏆 ハイエンド
128GB以上 70B+(高精度量子化) DeepSeek R1 70B, Mixtral 8x7B 🚀 プロ仕様

② GPU(グラフィックカード)— 処理速度を決める

GPUのVRAM(ビデオRAM)にモデルが収まると、CPUだけで動かす場合と比べて10〜20倍の速度で処理できます。実測値では、7BモデルをRTX 30/40シリーズのGPUで動かすと10ms/トークン(毎秒約40〜80トークン)のスピードが出ます。CPU推論だとこれが数倍以上遅くなります。

GPU / チップ VRAM 対応モデルサイズ 推定速度(7B Q4) 用途
GTX 1060 / RX 580 6GB 〜3B 〜15 tok/s 入門・学習用
RTX 3060 / RX 6700 8〜12GB 〜7B 〜30 tok/s 個人利用に十分
RTX 3080 / RX 6800XT 10〜16GB 〜13B 〜50 tok/s 開発者向け
RTX 4090 24GB 〜34B 〜80 tok/s ハイエンド
Apple M2/M3 Pro 最大36GB統合 〜30B 〜40 tok/s Mac利用者に最適
Apple M2/M3 Max/Ultra 最大192GB統合 70B〜 〜60 tok/s Mac最上位
GPU なし(CPU推論) 〜7B(低速) 〜3〜8 tok/s テスト用途のみ

🍎 Apple Silicon(M1/M2/M3/M4)の特別な強み
AppleのMシリーズチップはCPUとGPUが同じメモリ(ユニファイドメモリ)を共有しているため、GPUのVRAM制限がありません。M3 Maxの96GBモデルなら70Bのモデルもスムーズに動きます。メモリ帯域幅も400GB/s以上と非常に高く、Ollamaの公式サポートも完備されています。

③ CPU — 影響は小さいがゼロではない

GPU推論が主体の場合、CPUの影響は限定的ですが、CPU推論(GPUなし)では大きな差が出ます。現代的な6コア以上のCPU(Intel Core i5-12世代以降、AMD Ryzen 5000番台以降)があれば十分です。コア数よりもシングルコア性能とメモリ帯域幅が重要です。

④ ストレージ — SSDが必須

7Bモデルのファイルサイズは約4〜5GB、70Bモデルは約40GB以上です。ストレージへの読み書き速度がモデルの起動時間に影響します。NVMe SSD(読み取り速度3,000MB/s以上)を推奨します。HDDでは起動に数分かかることもあります。


5. 主要モデルの特性と比較 — どのモデルが何に向いているか

2025〜2026年現在、Ollamaで利用できる主要なモデルファミリーを詳しく解説します。

① Llama 3.x(Meta)— 最も人気のある汎用モデル

開発元:Meta(旧Facebook)
ライセンス:Meta Llama License(商用利用に条件あり)

MetaのLlamaシリーズはOllamaで最もダウンロードされているモデル(Llama 3.1 8Bは1億800万回以上のダウンロード実績)です。高い汎用性と豊富なエコシステムを持ち、英語能力は非常に高いです。日本語も一定程度対応しています。

Llamaシリーズの特徴まとめ

  • ✅ 幅広いタスクに対応する汎用性の高さ
  • ✅ コミュニティが最大で情報が豊富
  • ✅ 8Bモデルは16GB RAM以上で快適に動作
  • ✅ 70Bモデルは商用AI(GPT-3.5等)に匹敵する品質
  • ❌ 70Bは64GB以上のRAMまたは高VRAMのGPUが必要
  • ❌ 純粋な日本語性能はQwenに劣る

② Mistral / Mixtral(Mistral AI)— 効率と速度のバランス王

開発元:Mistral AI(フランス)
ライセンス:Apache 2.0(商用利用自由)

Mistral 7Bは「7Bモデルの中で最も優秀なモデルの一つ」として長く君臨してきました。フランス発のためヨーロッパ言語への対応が特に優れており、英語でも非常に高いパフォーマンスを発揮します。Apache 2.0ライセンスなので商用利用も無制限です。

Mixtral 8x7Bは「Mixture of Experts(MoE)」という特殊なアーキテクチャを採用しており、47Bのパラメータを持ちながら、実際の推論時には12.9Bぶんしか使わないため効率的です。

Mistralシリーズの特徴まとめ

  • ✅ Apache 2.0ライセンスで商用利用無制限
  • ✅ 7Bクラスで最高水準の効率・速度
  • ✅ メール作成・要約・データ処理に強い
  • ✅ 中小企業ツールへの組み込みに最適
  • ❌ 日本語・アジア言語対応はQwenに劣る

③ Gemma 2 / Gemma 3(Google)— 軽量・高品質の優等生

開発元:Google DeepMind
ライセンス:Gemma Terms of Use

GemmaはGoogleの最先端AIモデル「Gemini」と同じ研究・技術をベースに作られたオープンモデルです。特にGemma 3(2025年リリース)は、同サイズクラスで最高水準の性能を誇ります。Gemma 3はマルチモーダル(画像+テキスト)対応で、ダウンロード数は2,800万回以上と急速に伸びています。

Gemmaシリーズの特徴まとめ

  • ✅ 同サイズモデルの中でトップクラスの品質
  • ✅ 会話タスクに特に強い
  • ✅ Gemma 3はマルチモーダル対応(画像理解)
  • ✅ 2Bモデルは非常に軽量でモバイル・組み込みにも
  • ❌ Googleの利用規約があり純粋オープンソースではない

④ Phi-3 / Phi-4(Microsoft)— 「小さいのに賢い」驚異のモデル

開発元:Microsoft Research
ライセンス:MIT(完全商用利用自由)

Microsoftが開発したPhiシリーズは「小型なのに大型モデルに匹敵する性能」で有名です。Phi-3 Mini(3.8B)はMMLU(大学院レベルの試験問題集)で、より大きなモデルに匹敵するスコアを記録しました。スマートフォンやオフライン環境での動作を念頭に設計されており、インターネットのない環境でも活躍します。

Phiシリーズの特徴まとめ

  • ✅ 非常に小さいモデルサイズ(3.8B〜14B)
  • ✅ MITライセンスで完全商用利用可
  • ✅ 低スペックPCやRaspberry Piでも動作
  • ✅ コーディング・推論タスクが得意
  • ❌ 大規模な知識が必要なタスクでは大型モデルに劣る

⑤ DeepSeek-R1 / DeepSeek-V3(DeepSeek)— 推論特化の中国発モデル

開発元:DeepSeek AI(中国)
ライセンス:MIT(DeepSeek R1)

2025年に世界を驚かせた中国発のモデルです。DeepSeek-R1はOpenAIのo1に匹敵する推論能力を持つとされ、数学・論理・コーディングで特に優れています。Ollamaでのダウンロード数は7,500万回以上(2025年12月時点)と急増しています。

⚠️ セキュリティ観点での注意点
DeepSeekは中国企業が開発しており、クラウド版(deepseek.com)の利用はデータが中国サーバーに送られる可能性があります。しかし、Ollamaでローカル動作させる場合はこの懸念はありません。機密情報を扱う場合は必ずローカルで動かしましょう。

DeepSeekシリーズの特徴まとめ

  • ✅ 推論・数学・コーディングで最高クラスの性能
  • ✅ R1はMITライセンスで商用利用自由
  • ✅ 8Bモデルから70Bモデルまで選択肢が豊富
  • ❌ 大型モデル(70B)は64GB以上のRAMが必要
  • ❌ クラウド版は中国サーバー(ローカル動作なら問題なし)

⑥ Qwen 2.5 / Qwen 3(Alibaba)— アジア言語と多言語の王者

開発元:Alibaba Cloud(中国)
ライセンス:Apache 2.0(一部モデルを除く)

AlibabaのQwenシリーズは多言語対応、特に日本語・中国語・アジア言語のサポートが最も優れたモデルの一つです。Qwen 2.5はコーディング特化バリアント(Qwen2.5-Coder)もあり、プログラミング補助に強力です。

Qwenシリーズの特徴まとめ

  • ✅ 日本語を含む多言語対応が最高水準
  • ✅ Apache 2.0ライセンスで商用利用可
  • ✅ コーディング特化版(Qwen-Coder)も充実
  • ✅ 1.5B〜72Bまでサイズ選択肢が豊富
  • ❌ DeepSeek同様、Alibaba(中国企業)製のためクラウド利用には注意

⑦ CodeLlama / DeepSeek-Coder — コーディング専門モデル

セキュリティエンジニアやペネトレーションテスターには、コード生成・解析に特化したモデルも重要です。

モデル名 得意な言語 必要RAM(Q4) 特徴
CodeLlama 7B Python, C++, Java等 8GB〜 Metaベース。汎用コーディング
CodeLlama 34B Python, C++, Java等 32GB〜 高精度。複雑なコード解析に
DeepSeek-Coder 6.7B Python, JS, Go等多数 8GB〜 競技プログラミングレベルの精度
Qwen2.5-Coder 7B 92言語以上 8GB〜 多言語対応コーディング

6. 全モデル比較表 — 用途・スペック・特性まとめ

主要モデルの全体像を一覧でまとめました。自分のスペックと用途に合わせて選んでください。

モデル名 パラメータ 必要RAM(Q4_K_M) 必要VRAM(Q4_K_M) 得意なタスク 日本語 ライセンス 総合評価
Llama 3.2 3B 3B 6GB〜 3GB〜 汎用・軽量 Meta License ⭐⭐⭐
Phi-4 Mini 3.8B 6GB〜 3GB〜 推論・コーディング MIT ⭐⭐⭐⭐
Gemma 3 4B 4B 6GB〜 3GB〜 会話・マルチモーダル Gemma ToU ⭐⭐⭐⭐
Mistral 7B 7B 8GB〜 6GB〜 汎用・文書処理 Apache 2.0 ⭐⭐⭐⭐
Llama 3.1 8B 8B 8GB〜 6GB〜 汎用・バランス Meta License ⭐⭐⭐⭐
Gemma 2 9B 9B 10GB〜 8GB〜 会話・分析 Gemma ToU ⭐⭐⭐⭐
DeepSeek-R1 8B 8B 8GB〜 6GB〜 推論・数学・コーディング MIT ⭐⭐⭐⭐
Qwen2.5 7B 7B 8GB〜 6GB〜 多言語・日本語 Apache 2.0 ⭐⭐⭐⭐
CodeLlama 13B 13B 16GB〜 10GB〜 コード生成・解析 Meta License ⭐⭐⭐⭐
Qwen2.5 14B 14B 16GB〜 10GB〜 多言語・高品質 Apache 2.0 ⭐⭐⭐⭐⭐
Phi-4 14B 14B 16GB〜 10GB〜 推論・STEM MIT ⭐⭐⭐⭐⭐
DeepSeek-R1 32B 32B 32GB〜 24GB〜 高度な推論・分析 MIT ⭐⭐⭐⭐⭐
Llama 3.3 70B 70B 48GB〜 48GB〜 高度な汎用・分析 Meta License ⭐⭐⭐⭐⭐
Qwen2.5 72B 72B 48GB〜 48GB〜 最高品質・多言語 Apache 2.0 ⭐⭐⭐⭐⭐

※ 日本語評価:◎=優秀 / ○=良好 / △=基本的な対応


7. スペック別おすすめモデル — あなたのPCに合った選び方

パターン①:RAM 8GB・GPUなし(普通のノートPC)

🎯 おすすめモデル

  • 第1候補:Phi-4 Mini(3.8B) — 軽量なのに賢い。コーディング・推論向け
  • 第2候補:Gemma 3 4B — Google製。会話・日常タスクに
  • 第3候補:Llama 3.2 3B — 最も情報が多い定番モデル

⚠️ 7Bモデルはギリギリ動く場合もありますが、OSやブラウザと共存するとメモリ不足になりやすいため非推奨です。

パターン②:RAM 16GB・GPU VRAM 8GB前後(ミドルレンジPC)

🎯 おすすめモデル

  • 第1候補:Llama 3.1 8B — 万能。最もバランスが取れた定番
  • 第2候補:Qwen2.5 7B — 日本語を使うなら最有力
  • 第3候補:DeepSeek-R1 8B — 推論・数学・コード分析に強い
  • 第4候補:Mistral 7B — 文書処理・要約・ビジネス文書に

パターン③:RAM 32GB・GPU VRAM 12〜16GB(ハイスペックPC)

🎯 おすすめモデル

  • 第1候補:Qwen2.5 14B — 日本語+英語+高品質。最強の汎用モデル
  • 第2候補:Phi-4 14B — 推論・STEM分野に特化した高性能
  • 第3候補:CodeLlama 13B — セキュリティコード解析・ペネトレーションテストに
  • 第4候補:DeepSeek-R1 14B — 複雑な推論・分析タスク向け

パターン④:RAM 64GB以上・GPU VRAM 24GB以上 / Apple M2 Max以上(ワークステーション)

🎯 おすすめモデル

  • 第1候補:Qwen2.5 72B — 日本語最高品質。商用AI並みの性能
  • 第2候補:Llama 3.3 70B — 英語最高品質。企業レベルの分析に
  • 第3候補:DeepSeek-R1 70B — 世界最高水準の推論能力

8. セキュリティ用途別おすすめモデル

サイバーセキュリティの現場では、AIを何に使うかによって最適なモデルが変わります。

セキュリティ用途 おすすめモデル(RAM 16GB以下) おすすめモデル(RAM 32GB以上) 理由
マルウェア解析・コード解読 DeepSeek-Coder 6.7B CodeLlama 34B コード解析能力が高い
ペネトレーションテストレポート Llama 3.1 8B Qwen2.5 14B 日本語文書作成能力が必要
ログ分析・異常検知補助 DeepSeek-R1 8B DeepSeek-R1 32B 論理的推論・パターン認識
CTF(Capture the Flag) Qwen2.5-Coder 7B DeepSeek-Coder 33B 多言語コーディング・暗号解析
セキュリティ教育・解説 Gemma 2 9B Qwen2.5 14B わかりやすい説明能力
脅威インテリジェンス調査 Mistral 7B Llama 3.3 70B 英文技術文書の読解能力

9. Ollamaのコマンド基礎 — 実際に動かしてみよう

難しい設定なしに、コマンド一発でモデルをダウンロードして実行できるのがOllamaの強みです。

# モデルのダウンロードと起動
ollama run llama3.1:8b
 
# 量子化を指定してダウンロード
ollama pull llama3.1:8b-instruct-q4_K_M
 
# 動いているモデルの確認
ollama list
 
# モデルを止める
ollama stop llama3.1:8b

💻 Ollamaのインストール先別コマンド
macOS/Linux:curl -fsSL https://ollama.com/install.sh | sh
Windows:公式サイト(ollama.com)からインストーラーをダウンロード


10. よくある質問(FAQ)

Q. インターネットなしでも動く?

A. はい。モデルを一度ダウンロードしてしまえば、完全オフラインで動作します。これがローカルAIの最大のメリットの一つです。

Q. MacのM1/M2/M3でも動く?

A. 非常によく動きます。AppleのMシリーズチップはOllamaが公式にサポートしており、ユニファイドメモリの特性を活かして大型モデルも効率的に動作します。MacBook ProのM3 Pro 36GBモデルなら14Bクラスのモデルが快適に動きます。

Q. どのモデルを最初に試せばいい?

A. ollama run llama3.1:8b または ollama run qwen2.5:7b(日本語重視なら後者)から始めるのが最もおすすめです。16GBのRAMがあれば快適に動作します。

Q. 量子化するとどのくらい賢さが落ちる?

A. Q4_K_MはFP16比で品質低下が最小限に抑えられています。実際の使用感では、多くのタスクで差を感じないレベルです。Q3以下になると回答のまとまりが悪くなることがあります。

Q. GPU(グラフィックカード)は必須?

A. 必須ではありませんが、GPUがあると10〜20倍速くなります。GPUなしのCPU推論でも動作しますが、7Bモデルで1秒に3〜8トークン(1文字=約1.5トークン換算)程度のゆっくりとした速度になります。

Q. Windowsと Mac どちらが有利?

A. それぞれ一長一短です。WindowsはNVIDIA GPUの活用(CUDA)で高速化できます。MacはApple Silicon(特にM2 Max/Ultra以上)の統合メモリで、大型モデルを低価格で動かせる点が優位です。


まとめ — モデル選びの3ステップ

Step 1:自分のRAMを確認する
・8GB → 3B〜7B(Q4)モデル限定
・16GB → 7B〜9Bモデルが快適
・32GB → 14Bモデルまで
・64GB以上 → 70Bモデルも視野に

Step 2:用途を決める
・日本語 → Qwen2.5シリーズ最優先
・コーディング → DeepSeek-Coder / CodeLlama
・推論・数学 → DeepSeek-R1 / Phi-4
・汎用 → Llama 3.1 / Mistral
・会話 → Gemma 2/3

Step 3:量子化は Q4_K_M を基本にする
品質とサイズのバランスが最も良い「黄金の選択肢」です。VRAM・RAMに余裕があれば Q5_K_M や Q8_0 を試してみましょう。

Ollamaはコマンド一発でモデルをダウンロード・実行できる、非常に使いやすいツールです。サイバーセキュリティの観点からも、機密情報をクラウドに送らず手元で処理できることは大きなメリットです。まずは自分のスペックに合った小さいモデルから試してみて、徐々に大きなモデルへとステップアップしていきましょう。

📚 参考リンク

コメント