Splunkの初期設定・データの入れ方・データの整え方・時刻の整合方法を解説

解析

「Splunkって名前は聞いたことあるけど、何をするツールなの?」「ログを分析するらしいけど、設定が難しそう…」そんな悩みを抱えているあなたのために、この記事ではSplunkの初期設定・データの入れ方・データの整え方・時刻の整合方法を、専門用語をかみ砕きながら丁寧に解説します。読み終わるころには「あ、Splunkってこういうことか!」と自信を持って触れるようになります。

✅ この記事でわかること

① Splunkとは何か・なぜサイバーセキュリティで重要なのかが理解できる
② Splunkの初期設定(インストール〜ライセンス〜ポート設定)を手順どおりに進められる
③ データの投入方法(ファイルアップロード・Forwarder・Syslog)と時刻の整合方法がわかる

  1. Splunkとは?―ログの「巨大な虫めがね」
    1. Splunkが使われる主な場面
    2. SplunkのFACT(数字で見る規模感)
  2. 初期設定の仕方―インストールからWeb画面が開くまで
    1. ステップ①:Splunkを入手する
    2. ステップ②:インストールと起動(Linux編)
    3. ステップ③:Webインターフェースにアクセスする
    4. ステップ④:ライセンスの確認と設定
    5. ステップ⑤:基本的なシステム設定を確認する
  3. データの入れ方―Splunkへのデータ投入4つの方法
    1. 方法①:ファイルをWebUIからアップロードする(初心者おすすめ)
    2. 方法②:Universal Forwarderを使う(本番環境の定番)
    3. 方法③:Syslogでネットワーク機器のログを受信する
    4. 方法④:HEC(HTTP Event Collector)でAPIから送る
  4. アップロードするデータの整え方―ソースタイプとフィールド抽出
    1. ソースタイプ(sourcetype)って何?
    2. ソースタイプを手動で設定する方法
    3. フィールド抽出(Field Extraction)でログを構造化する
    4. lookupテーブルでデータを「補足」する
  5. 時間の整合の取り方―これが一番重要で一番厄介
    1. Splunkにおける時刻の仕組み
    2. タイムスタンプの認識失敗―よくある3つのパターン
    3. パターン①:タイムスタンプのフォーマットがSplunkに認識されない
    4. パターン②:タイムゾーンがズレている
    5. パターン③:送信元機器のNTPがズレている
    6. 時刻整合のベストプラクティスまとめ
    7. 時刻のズレを調査するSPL(Splunk処理言語)
  6. 基本的なSplunkの使い方―SPLで検索してみよう
    1. SPLの基本構文
    2. よく使うSPLコマンド早見表
    3. ダッシュボードを作ってみる
  7. 専門家たちの視点―Splunk活用の落とし穴と解決策
  8. 今すぐできること―初心者が最初の1週間でやるべき設定チェックリスト
    1. Day 1:基盤を固める
    2. Day 2〜3:最初のデータを入れてみる
    3. Day 4〜5:フィールド抽出とlookup
    4. Day 6〜7:Universal Forwarderを設置する
    5. 必要な予算感と対策の優先度
  9. まとめ―Splunkは「設定8割・検索2割」のツール

Splunkとは?―ログの「巨大な虫めがね」

まず超シンプルな例え話から始めましょう。あなたの家に100台の防犯カメラがあるとします。毎日24時間、映像が録り続けられています。「昨日の夜10時に玄関を通った人は誰?」と調べるとき、100台分のテープを一台一台巻き戻して確認していたら、何日もかかりますよね。

Splunk(スプランク)は、このカメラ映像を「ログ(記録)」に置き換えたときの「超高速な全テープ横断検索システム」です。サーバー・ファイアウォール・Windows・Linuxなど、あらゆる機器が吐き出すログを一か所に集め、秒単位で横断検索・グラフ化・アラート通知ができます。

Splunkが使われる主な場面

用途 具体例 担当者
セキュリティ監視(SIEM) 不正ログイン・マルウェア通信の検知 SOCアナリスト
障害調査 「昨夜のサーバーダウンの原因は?」を数分で特定 インフラエンジニア
コンプライアンス対応 ログ保存義務(PCI-DSSなど)の証跡管理 情報システム部門
パフォーマンス分析 Webサービスのレスポンス遅延のボトルネック特定 開発者・SRE

SplunkのFACT(数字で見る規模感)

Splunkは現在Cisco Systems傘下のSIEMプラットフォームです(2024年3月に買収完了)。以下の数字が、その実力を物語っています:

  • 🌍 世界90カ国以上・22,000社超の組織が導入(Splunk公式、2023年)
  • 📊 Fortune 500企業の92%以上がSplunkを利用
  • ⚡ 1日あたり数ペタバイト規模のデータを処理する大規模環境での実績あり
  • 🔒 SIEM市場シェアでGartner Magic Quadrant上位に継続ランクイン

初期設定の仕方―インストールからWeb画面が開くまで

ステップ①:Splunkを入手する

Splunkには大きく2種類あります。まず自分のPCやサーバーで試すなら「Splunk Enterprise(無料トライアル・60日間)」「Splunk Free(500MB/日のデータ制限あり)」を使います。クラウド版の「Splunk Cloud」は企業向けSaaSです。

ダウンロードは splunk.com のアカウントを作れば無料で行えます。OS別(Windows / Linux / macOS)にインストーラが用意されています。

ステップ②:インストールと起動(Linux編)

Linuxの場合、ダウンロードした .tgz ファイルを展開し、以下のコマンドでSplunkを起動します:

# 展開(例:/opt に配置)
tar -xvf splunk-9.x.x-linux-2.6-x86_64.tgz -C /opt
 
# 起動(初回は使用許諾への同意が必要)
/opt/splunk/bin/splunk start --accept-license
 
# OS起動時に自動起動する設定
/opt/splunk/bin/splunk enable boot-start

Windowsの場合はダウンロードした .msi インストーラをダブルクリックするだけです。ウィザードに従えば完了します。

ステップ③:Webインターフェースにアクセスする

Splunkが起動すると、ポート8000番でWebサーバーが立ち上がります。ブラウザで以下のURLを開いてください:

ht{t}p://localhost:8000
(リモートサーバーの場合は http://[IPアドレス]:8000)

初回ログインのデフォルトIDとパスワードは admin / changeme です。ログイン直後にパスワード変更を求められます。

⚠ 注意

デフォルトのポート8000は、インターネットに直接公開しないでください。ファイアウォールでアクセス元IPを絞るか、VPN経由でのみアクセス可能にするよう設定しましょう。Splunkの管理画面が外部から丸見えになると、認証情報やログが漏洩するリスクがあります。

ステップ④:ライセンスの確認と設定

Splunk Enterpriseのトライアル版は「Enterprise Trial」ライセンスで動作しており、毎日500MBのデータ投入が可能です(超過するとサーチ機能が一時停止します)。ライセンスは [設定] → [ライセンスの管理] から確認・追加ができます。

ステップ⑤:基本的なシステム設定を確認する

[設定] → [サーバーの設定] → [一般設定] でサーバー名・タイムゾーン・メール通知設定などを確認します。後述の「時刻の整合」でも重要になるので、サーバーのタイムゾーンを正確に設定することを最初にやっておきましょう。

データの入れ方―Splunkへのデータ投入4つの方法

Splunkにとって「データを入れる」ことが最初の最重要ステップです。ログが入っていなければ、どんなに高性能な検索エンジンも意味がありません。データ投入の方法は主に4つあります。

方法①:ファイルをWebUIからアップロードする(初心者おすすめ)

一番手軽な方法です。手元にある .log .csv .txt などのファイルをそのままブラウザからアップロードできます。

手順:

  1. 左上の「データの追加」をクリック
  2. ファイルをアップロード」を選択
  3. ファイルをドラッグ&ドロップ(または選択)
  4. ソースタイプを確認・設定(後述)
  5. インデックスを選択(最初は「main」でOK)
  6. 「レビュー」→「送信」で完了
✅ 対策済み確認

アップロード完了後、「サーチ」画面で index=main と入力して検索すると、取り込まれたイベントが表示されます。件数が0件なら取り込みに失敗している可能性があります。ファイル形式やソースタイプを再確認しましょう。

方法②:Universal Forwarderを使う(本番環境の定番)

本番環境では、監視対象のサーバーに「Universal Forwarder(UF)」という軽量エージェントをインストールします。UFはログファイルを監視し、変更があればリアルタイムでSplunkのインデクサーに送り続けます。

例え話:UFは「現地の郵便配達員」で、Splunkサーバーは「大きな郵便局」です。配達員が各家庭(サーバー)のポストから手紙(ログ)を集め、郵便局(Splunk)に届け続けます。

UFの設定ファイル例(inputs.conf):

[monitor:///var/log/auth.log]
index = linux_logs
sourcetype = linux_secure
disabled = false
 
[monitor:///var/log/syslog]
index = linux_logs
sourcetype = syslog
disabled = false

転送先(outputs.conf)の設定例:

[tcpout]
defaultGroup = splunk_indexers
 
[tcpout:splunk_indexers]
server = 192.168.1.100:9997

方法③:Syslogでネットワーク機器のログを受信する

ファイアウォール・スイッチ・ルーターなどのネットワーク機器は、ファイルではなくSyslog(UDP514番 or TCP514番)でログを飛ばしてきます。Splunkでは「データ入力」→「TCP/UDP」から受信ポートを設定できます。

# inputs.conf に追記する場合(UDP 514番でSyslog受信)
[udp://514]
sourcetype = syslog
index = network_logs
no_appending_timestamp = true
⚠ 注意

UDP514番でSyslogを受信する場合、Linuxのファイアウォール(iptables / firewalld)でポートを開放する必要があります。また、受信したログに正確な時刻情報が含まれているか必ず確認してください。時刻がない場合はSplunkがイベント受信時刻を付与しますが、実際の発生時刻とズレが生じます。

方法④:HEC(HTTP Event Collector)でAPIから送る

アプリケーションログをプログラムから直接Splunkに送りたい場合はHEC(HTTP Event Collector)を使います。REST APIでHTTP POSTするだけなので、Python・JavaScript・Javaなどあらゆる言語から利用できます。

# Python例:HECでSplunkにログを送信
import requests, json
 
url = "https://splunk-server:8088/services/collector/event"
headers = {"Authorization": "Splunk YOUR_HEC_TOKEN"}
payload = {
    "time": 1700000000,
    "event": {"message": "ユーザーログイン成功", "user": "alice"},
    "sourcetype": "app_log",
    "index": "app_logs"
}
response = requests.post(url, headers=headers, json=payload, verify=False)
print(response.status_code)  # 200なら成功

アップロードするデータの整え方―ソースタイプとフィールド抽出

データをSplunkに入れるだけでは「文字の山」が積み上がるだけです。Splunkがログを「意味のある情報」として扱えるようにするためには、データを適切に「整える」必要があります。これが初心者が一番つまずくポイントです。

ソースタイプ(sourcetype)って何?

Splunkはログを受け取るとき、「このログはどんな形式か?」を判断するためのソースタイプというラベルを使います。

例え話:図書館の本に「小説」「技術書」「絵本」といった分類ラベルが貼ってあるイメージです。ラベルが正しければ検索が速くなり、自動的に著者名(フィールド)や出版年(タイムスタンプ)を読み取れるようになります。

ソースタイプ 対応するログの種類 自動認識されるフィールド例
syslog Linux syslog / ネットワーク機器 host, pid, severity
access_combined Apache/NginxのアクセスログCombined形式 clientip, status, uri, bytes
WinEventLog:Security Windowsセキュリティイベントログ EventCode, Account_Name, Logon_Type
json JSON形式のアプリケーションログ JSONキーがそのままフィールドに
csv CSVファイル ヘッダー行がフィールド名に

ソースタイプを手動で設定する方法

Splunkが自動認識できない独自フォーマットのログは、props.conf にルールを書きます。以下はカスタムアクセスログの例です:

# $SPLUNK_HOME/etc/system/local/props.conf
 
[my_custom_app_log]
SHOULD_LINEMERGE = false
LINE_BREAKER = ([\r\n]+)
TIME_PREFIX = \[
TIME_FORMAT = %Y-%m-%d %H:%M:%S
MAX_TIMESTAMP_LOOKAHEAD = 20
CHARSET = UTF-8

フィールド抽出(Field Extraction)でログを構造化する

Splunkにデータを取り込んだ後、ログの中の特定の情報(IPアドレス・ユーザー名・エラーコードなど)を「フィールド」として切り出すことをフィールド抽出といいます。

例えば、以下のようなログがあるとします:

2024-01-15 10:23:45 ERROR user=alice src_ip=192.168.1.50 action=login_failed

このログから user src_ip action を自動的に抽出するには、正規表現(Regex)区切り文字(Delimiter)で設定します。Splunk WebUIの「フィールド抽出ウィザード」なら正規表現の知識なしでGUI操作だけで設定できます。

GUI手順:

  1. サーチ画面でイベントをクリック → 「フィールドを抽出」
  2. 「正規表現」か「区切り文字」を選択
  3. 抽出したい部分をハイライト → フィールド名を入力
  4. 「保存」でフィールド抽出ルールが登録される

lookupテーブルでデータを「補足」する

IPアドレスをログから取れても「それがどの国のIPか」「社内のどの機器か」はわかりません。そこでlookup(ルックアップ)を使います。CSVファイルで対応表を作成してSplunkに登録すると、ログのフィールドに対応する情報を自動で補足できます。

# ip_to_hostname.csv(lookupファイルの例)
ip_address,hostname,owner,department
192.168.1.10,web-server-01,田中太郎,IT部門
192.168.1.11,db-server-01,山田花子,IT部門
10.0.0.5,vpn-gw-01,佐藤次郎,ネットワーク部門

このCSVをSplunkに登録し、サーチ時に | lookup ip_to_hostname ip_address AS src_ip と書くだけで、ログに自動的に hostname・owner などの列が追加されます。

時間の整合の取り方―これが一番重要で一番厄介

セキュリティインシデント調査において「いつ起きたか」は最重要情報です。10台のサーバーのログを集めても、時計がバラバラなら「攻撃の順序」が正確に追えません。時刻の整合は地味ですが、SOCの命綱です。

Splunkにおける時刻の仕組み

Splunkはイベントを取り込む際、以下の優先順位でタイムスタンプを決定します:

  1. ログ本文の中のタイムスタンプ(最優先)
  2. props.conf で指定したパターンで抽出したタイムスタンプ
  3. ファイルの最終更新日時(ファイル取り込みの場合)
  4. Splunkがデータを受信した時刻(_indextime)
🚨 重要

「_time(イベント時刻)」と「_indextime(インデックス登録時刻)」は別物です。ファイルをまとめてアップロードすると _indextime はすべて同じになりますが、_time はログ内の時刻を正しく読み取れていれば分散します。_time がすべて同じになっている場合、タイムスタンプの抽出に失敗している可能性大です。

タイムスタンプの認識失敗―よくある3つのパターン

パターン①:タイムスタンプのフォーマットがSplunkに認識されない

Splunkは多くの日時フォーマットを自動認識しますが、独自フォーマットは手動で設定が必要です。

問題のあるログ例:

15/Jan/2024:10:23:45 +0900 GET /index.html 200

props.conf での修正例:

[my_web_log]
TIME_PREFIX = ^
TIME_FORMAT = %d/%b/%Y:%H:%M:%S %z
MAX_TIMESTAMP_LOOKAHEAD = 30

パターン②:タイムゾーンがズレている

ログには「+0900(JST)」などのタイムゾーン情報が含まれていないことがあります。その場合、SplunkはUTCとして解釈するため、日本時間から9時間ズレて表示されます。

修正方法(props.conf):

[my_log_without_tz]
TZ = Asia/Tokyo
# または
TZ = JST-9

パターン③:送信元機器のNTPがズレている

ログを送ってくるサーバーや機器の時計自体がズレている場合、Splunkでどんな設定をしても正確な時刻は取れません。これはNTP(Network Time Protocol)で各機器の時計をインターネット上の時刻サーバーと同期させることで解決します。

# Linux(chrony)でNTPを設定する例
# /etc/chrony.conf に以下を追記
server ntp.nict.jp iburst      # 国立情報通信研究機構(日本)
server time.cloudflare.com iburst
 
# 設定を反映して同期確認
sudo systemctl restart chronyd
chronyc tracking

時刻整合のベストプラクティスまとめ

チェック項目 確認方法 修正場所
全機器のNTP同期確認 chronyc tracking / w32tm /query /status 各OS・機器の設定
Splunkサーバーのタイムゾーン [設定]→[サーバー設定]→[一般] Splunk WebUI
ソースタイプのタイムゾーン指定 サーチで | eval diff=_indextime-_time props.conf の TZ
タイムスタンプ認識フォーマット イベント詳細で _time を目視確認 props.conf の TIME_FORMAT
将来の時刻・過去すぎる時刻の除外 MAX_DAYS_AGO / MAX_DAYS_HENCE props.conf

時刻のズレを調査するSPL(Splunk処理言語)

index=main sourcetype=my_log
| eval time_diff_sec = _indextime - _time
| stats avg(time_diff_sec) as avg_diff, max(time_diff_sec) as max_diff by host
| where avg_diff > 60

このサーチは「インデックス登録時刻とイベント時刻の差が60秒を超えているホスト」を一覧表示します。ズレが大きいホストはNTPやログ送信の遅延を疑いましょう。

基本的なSplunkの使い方―SPLで検索してみよう

データが入ったら、いよいよ検索です。SplunkはSPL(Search Processing Language)という専用の検索言語を使います。SQLに似た感覚で書けますが、パイプライン(|)でコマンドをつなぐのが特徴です。

SPLの基本構文

index=main sourcetype=syslog "login failed"
| stats count by src_ip
| sort -count
| head 10

このSPLは「syslogからログイン失敗イベントを探し、送信元IPごとに件数を集計し、多い順に上位10件を表示」という意味です。これがSplunk検索の基本パターンです。

よく使うSPLコマンド早見表

コマンド 使い方 用途
stats count by フィールド フィールドごとの件数集計 どのIPが最も多く出現?
timechart span=1h count by host 時系列グラフ化 時間帯別のアクセス数推移
table フィールド1 フィールド2 指定フィールドのみ表形式表示 見やすいレポート作成
dedup フィールド 重複イベントを除去 ユニークIPの一覧
eval 新フィールド=計算式 新しいフィールドを計算で作成 MBをGBに変換など
where 条件 フィルタリング エラーコードが500以上のみ
lookup テーブル名 フィールド 外部テーブルと結合 IPから組織名を付加

ダッシュボードを作ってみる

よく使うサーチはダッシュボードに保存しておくと便利です。[ダッシュボード] → [新しいダッシュボード作成] → パネルを追加してSPLを貼り付けるだけでリアルタイムな可視化が完成します。

✅ 対策済み確認

Splunk公式の「Splunk App for Security Essentials(SES)」を無料でインストールすると、初心者でもすぐに使えるセキュリティ検出ルールとダッシュボードが100種類以上入ってきます。SplunkbaseサイトからAppをインストールするだけなので、ゼロからSPLを書かなくていい強い味方です。

専門家たちの視点―Splunk活用の落とし穴と解決策

😱 悲観派アナリスト
😱 悲観派アナリスト

Splunkって確かに強力なんですけど、設定を間違えると「取り込んでいるつもりが実は取り込めていない」という地獄に陥りますよ。特に時刻がズレてると、インシデント調査で「5分前に何が起きた?」を調べようとしても前後関係がデタラメになって、まったく使えない分析になります。

😊 楽観派エンジニア
😊 楽観派エンジニア

確かにその問題はあります。でも、最初にNTPとprops.confのタイムゾーン設定を正しくやってしまえば、後は安定して動きます。しかもSplunkにはHealthダッシュボードがあって、データ投入の遅延やインデクサーの負荷をリアルタイム監視できる。問題が起きてから気づくんじゃなく、事前に察知できるんですよ。

💰 コスト分析担当
💰 コスト分析担当

でもSplunkってライセンス高くないですか?1日あたり100GBとか200GBのデータを流す大企業だと、ライセンス費用が年間数千万円になることも。だからこそデータ投入量を最適化する「フィルタリング設定」が重要で、無駄なデバッグログを全部流すのは財布の敵ですよ。

🔧 エンジニア
🔧 エンジニア

おっしゃる通りです。props.confの TRANSFORMS で特定パターンのログをドロップしたり、ソースタイプ別にインデックスを分けて保存期間を変えることでコスト削減できます。全部mainインデックスに突っ込む設定は初心者あるあるですが、本番環境では必ず分けましょう。

今すぐできること―初心者が最初の1週間でやるべき設定チェックリスト

Day 1:基盤を固める

  • ✅ Splunk EnterpriseをインストールしてWebUIにアクセスできる状態にする
  • ✅ 管理者パスワードを変更し、ポート8000のファイアウォールを設定する
  • ✅ Splunkサーバー自身のNTPを確認・設定する
  • ✅ [設定]→[サーバー設定]でタイムゾーンをAsia/Tokyoに設定する

Day 2〜3:最初のデータを入れてみる

  • ✅ WebUIのファイルアップロードで手元のログファイルを投入してみる
  • index=main でサーチして取り込みを確認する
  • ✅ _time が正しく認識されているか目視確認する
  • ✅ ソースタイプが自動認識されているか確認、されていなければ手動設定

Day 4〜5:フィールド抽出とlookup

  • ✅ GUI「フィールド抽出ウィザード」でIPアドレス・ユーザー名を抽出
  • ✅ IPと機器名の対応CSVを作成してlookupに登録
  • ✅ 簡単なSPL(stats count by src_ip)を書いて実行してみる

Day 6〜7:Universal Forwarderを設置する

  • ✅ 監視対象サーバーにUFをインストール
  • ✅ inputs.confで /var/log/auth.log を監視設定
  • ✅ outputs.confでSplunkサーバーへの転送を設定
  • ✅ リアルタイムでログが流れ込んでくることを確認

必要な予算感と対策の優先度

規模・用途 推奨構成 コスト目安 優先度
学習・個人検証 Splunk Free(500MB/日制限) 無料 ★★★
中小企業(〜10GB/日) Splunk Enterprise + インフラサーバー1台 年間200〜500万円(ライセンス) ★★★
中堅企業(10〜100GB/日) インデクサー3台クラスタ構成 年間1,000〜3,000万円 ★★
コスト重視の代替 Splunk Cloud(SaaS版・従量課金) データ量によって変動 ★★
⚠ 注意

Splunk EnterpriseのライセンスはGB/日(1日に投入するデータ量)で課金されます。ライセンス上限を超えると検索機能が一時停止するため、投入データ量の見積もりは余裕を持って行いましょう。特にWindowsイベントログやファイアウォールログは想定より量が多いケースが多いです。

まとめ―Splunkは「設定8割・検索2割」のツール

Splunkは検索エンジンとして非常に強力ですが、その力を引き出せるかどうかは最初の設定の丁寧さで決まります。「データが入っているのに検索結果がおかしい」「時刻がバラバラで調査できない」という状態は、多くの場合、初期設定の段階での設定漏れが原因です。

この記事で解説した手順を振り返ります:

  1. 🔧 初期設定:インストール → Webアクセス → ライセンス確認 → タイムゾーン設定
  2. 📥 データ投入:ファイルアップロード → UF → Syslog → HECの4方法を状況に応じて使い分け
  3. 🗂️ データの整え方:ソースタイプ設定 → フィールド抽出 → lookupで情報補足
  4. 時刻の整合:NTP同期 → props.confのTZ設定 → TIME_FORMATの指定 → SPLで検証
✅ 対策済み確認

「Splunk Free」で今日から無料で始められます。まず自分のPCに入れて、Windowsイベントログやアクセスログをアップロードして検索してみてください。最初の「あ、このログが見える!」という体験が、SIEMへの理解を一気に加速させます。小さく始めて、少しずつ監視範囲を広げていく。それがSplunk習得の一番の近道です。

Splunkをしっかり使いこなすと、不正アクセスの痕跡を数分で発見できたり、システム障害の根本原因を深夜に呼び出されることなくログで特定できたりと、セキュリティ担当者・インフラ担当者どちらにも強力な武器になります。ぜひこの記事を参考に、最初の一歩を踏み出してみてください。

次回の記事では、「SplunkでWindowsイベントログを解析して不正ログインを検知する」実践的なユースケースを解説予定です。お楽しみに!

コメント