CYBER THREAT REPORT 2026 — AI VISHING

サイバー犯罪

究極のなりすまし声が、武器になった

AIボイスクローニングとディープフェイクが塗り替える、詐欺・サイバー攻撃の新常識

2024年2月、香港のある多国籍企業の経理担当者は、ビデオ会議に参加した。画面の向こうには見慣れた顔が並んでいた――CFO、同僚たち、そして信頼する上司の声。誰もが本物に見えた。誰もが本物に聞こえた。そして彼は、指示通りに2,500万ドルを送金した。

後から判明したのは、画面に映っていた全員がディープフェイクだったという事実だ。声も、顔も、振る舞いも、すべてがAIによって生成されたものだった。人間が本物と偽物を区別できなくなった日、詐欺の歴史は新たなページを開いた。

「声」という最後の砦が崩れた日

フィッシングメールに含まれる怪しいリンク。不自然な日本語の文面。知らない送信者のアドレス。こうした「偽物のサイン」を見破ることに、私たちは少しずつ慣れてきた。メールのフィルタリング技術も進化し、多くの詐欺メールは迷惑メールフォルダに直行する。

しかし攻撃者は、別の穴を見つけた。「電話」だ。電話には文字と違い、フィルターがない。そして声には、文字が持てない「信頼の重力」がある。親しい人の声で話しかけられると、人間の脳は疑うよりも先に、心を開いてしまう。

AI音声クローニング技術が、この心理的盲点を完璧に突いた。現代のシステムは、わずか3〜30秒の音声サンプルがあれば、その人の声の「指紋」――ピッチ、トーン、抑揚、呼吸のパターン、アクセントのクセ――を丸ごと複製できる。そして任意のテキストを、その「本物そっくりの声」で読み上げることができる。

「クローン音声の感情的なリアルさが、懐疑心という精神的なバリアを取り除く。もし愛する人の声に聞こえたら、人の理性的な防衛機制は停止してしまう傾向がある」— IT.wisc.edu 研究報告(2024年)

実際に起きたこと――主要インシデント年表

2019年 — ドイツ エネルギー会社CEO音声詐欺:22万ユーロ被害

英エネルギー会社のCEO声をクローン化。わずか10秒のウェビナー音声から複製し、経理に電話をかけてドイツ子会社への緊急送金を指示。銀行は疑わなかった。

2024年2月 — 香港 多国籍企業Arupで2,500万ドル詐欺

ビデオ会議参加者全員がディープフェイク。経理担当者は「本物の同僚」と信じ込み、15回に分けて計2,500万ドル(約37億円)を送金した。

2025年初頭 — イタリア 国防大臣の声を複製し身代金要求

イタリア国防大臣グイド・クロセットの声をクローン化し、財界人に身代金を要求。100万ユーロ近い被害が出る寸前で発覚した。

2025年7月 — 米フロリダ 娘の声を騙り母親から1.5万ドル詐取

シャロン・ブライトウェル氏は「娘が事故を起こした」という電話を受け、1万5,000ドルを現金輸送業者に渡した。電話の声は、AIが複製した娘の声だった。

2025年 — 韓国・南米 国家支援ハッカーと犯罪組織が参入

北朝鮮系Lazarusグループが国家インフラ企業の幹部に成りすます。南米のSilverPhantomは調達チームを狙ったサプライヤー支払い詐欺で多数の被害を出した。

詐欺師が必要なのは、もう顔写真でも偽造書類でもない。
ターゲットが「喋っている」3秒間だけでいい。

OSINT×AI:攻撃者はどうやって「声」を手に入れるのか

「OSINT(Open Source Intelligence)」とは、公開情報を収集・分析する諜報技術だ。もともとは安全保障分野や法執行機関が使っていた手法だが、今や攻撃者が標的の情報を収集し、説得力あるなりすましを構築するための基盤技術になっている。

AI音声詐欺の攻撃チェーンを分解すると、その最初のフェーズは常にOSINTから始まる。攻撃者はターゲットを定めたあと、公開情報の海を泳ぎながら「素材」を集める。

攻撃者が音声サンプルを集める場所

情報源入手できるものリスクレベル
YouTube / Podcast企業説明会、インタビュー、登壇動画🔴 HIGH
LinkedIn役職・組織図・プロジェクト情報・動画投稿🔴 HIGH
ウェビナー/Zoom録画長尺音声・自然な会話サンプル🔴 HIGH
決算説明会 / IR動画経営者の長時間音声、話し方のパターン🔴 HIGH
Twitter / X出張先・参加イベント・近況(偽文脈作りに使用)🟡 MED
プレスリリースプロジェクト名・パートナー企業・チーム構成🟡 MED
漏洩データベースメールアドレス・電話番号・パスワードのパターン🔴 HIGH

Googleのレッドチーム(内部セキュリティ研究者)が実際の攻撃をシミュレーションした実験では、標的とする人物の音声をポッドキャストや社内会議録音から取得し、AIでモデルを構築した後、OSINTで洗い出した「その上司の部下にあたる人物」に電話をかけた。部下は電話に出るなり「あ、ボス、どうしたんですか?」と答えた。実験は成功した。

攻撃者の「偵察」フェーズ:具体的な手順

01 ターゲット選定(Who to impersonate / Who to call)

LinkedInで組織図を解析。「CFO」「経理部長」「支払い承認権限を持つ人物」を特定する。同時に、その人物が「誰の声なら信じるか」も調べる。大企業なら、経理担当がCEOの声に逆らえない心理を利用する。

02 音声収集(Audio Harvesting)

YouTubeやポッドキャストで標的の動画を探す。決算説明会の録画、業界カンファレンスの登壇映像、社長インタビューなど。AIモデルには最低3〜30秒あれば十分だが、長い素材があるほど精度が上がる。

03 文脈の構築(Pretext Building)

プレスリリースやSNSから「社内情報らしき文脈」を作る。「先週のA社との案件」「来週のB社との商談の前払い」など、実在するプロジェクト名を会話に織り込むことで、被害者に「本物だ」と確信させる。

04 音声クローニングと実行(Cloning & Strike)

OpenVoice、Resemble AIなどのツールで音声モデルを生成。スクリプトを作成し、TTS(テキスト音声変換)エンジンで「偽CEOの声」を生成。VoIPサービスで発信元番号を偽装し、電話をかける。

05 心理的プレッシャーの適用(Urgency + Authority)

「今すぐ」「秘密にしてくれ」「通常のルートを通す時間がない」という言葉を使い、被害者が考える時間を奪う。権威(上司の声)と緊急性の組み合わせは、人間の批判的思考を麻痺させる最強の武器だ。

⚠ OSINT視点からのポイント

攻撃者が使うOSINTツールは特別なものではない。Googleの画像検索、LinkedInの無料プラン、YouTubeの検索機能、そして漏洩データを集めたHave I Been Pwned(HIBP)などの公開サービスで十分だ。「公開情報」だからといって「安全な情報」ではない。インターネット上に残したすべての「声」が、武器になる可能性がある。

なぜ人間はAIの声に騙されるのか

UC Berkeleyの研究チームが行った実験では、参加者の80%がAI生成音声を本物の人間の声と誤認した。偽物と正しく識別できたのは60%に留まり、裏を返せば40%のケースで「AIの声を人間と誤認」したことになる。

なぜこれほど騙されやすいのか。答えは脳の仕組みにある。人間の聴覚システムは、声のパターンを「人物認識」と直結させて処理する。馴染みのある声を聞いた瞬間、脳は「この人物は安全だ」という信頼シグナルを自動的に発動する。これは数万年の進化の産物で、コミュニケーションの効率化のために最適化されたものだ。

AIは、まさにこの「信頼を生み出す音響パターン」を完璧に再現する。周波数特性、話す速度、「えー」「そのー」といった言い間違い、息継ぎのタイミングまで模倣することで、脳は「本物だ」という判定を下してしまう。

⚡ 攻撃者が狙う「三つの心理スイッチ」

  1. 権威(Authority):「上司だから指示に従わなければ」という心理。声が本物のCEOに聞こえれば、脳は即座に服従モードに入る。
  2. 緊急性(Urgency):「今すぐ」という圧力は考える時間を奪う。金融取引では「時間切れ」が大きな損失につながると思わせることで、確認の手順を省略させる。
  3. 秘密性(Secrecy):「誰にも言わないでくれ」という指示は、二重確認を防ぐ最強の武器。「M&A関連の機密事項だから」という理由をつければ、経理担当は他の人に相談できなくなる。

「声」の次はビデオ――ディープフェイクの進化

音声だけで億単位の詐欺ができるなら、映像も加えたら何が起きるか。香港の2,500万ドル事件は、すでにその答えを示している。Microsoft TeamsやZoomを使ったビデオ会議で、画面全体がディープフェイクになる時代が来ている。

WPP(世界最大の広告グループ)のCEOは、自分の声と顔がディープフェイクで複製され、偽のTeams通話に使用されたことを2025年に公表した。攻撃者はYouTubeに公開されている動画から映像と音声を収集し、リアルタイムで合成した偽の「CEO」を作り上げた。

Case:韓国の国家インフラ施設を狙った北朝鮮系ハッカー

北朝鮮と関連するとされるLazarusグループは、韓国のエネルギー関連企業の幹部になりすました。音声は公開講演の録音から複製。攻撃者は「エネルギー部門の幹部」として内部担当者に電話をかけ、機密プロジェクトのファイルを送信するよう指示した。これは単なる金銭詐欺ではなく、国家規模のサイバー諜報活動として分類されている。AI音声詐欺が、スパイ活動のツールにもなった瞬間だ。

さらに深刻なのが「リアルタイム音声変換(Real-time Voice Conversion)」技術だ。通話中に生の声をリアルタイムで別人の声に変換するこの技術は、かつては映画やゲームのみに使われていた。今やXanthorox AIをはじめとした攻撃者向けプラットフォームが、これを「サービスとして」提供している。攻撃者は自分の声で話しながら、被害者には全く別の声が届くという悪夢のような状況が、すでに現実化している。「Xanthorox AI」などのツールは、2026年現在、遅延(レイテンシ)が0.1秒以下に抑えられています。

日本・アジアへの影響:他人事ではない理由

このような事件は欧米だけの話ではない。アジア太平洋地域のAI詐欺は2023年比で194%増加しており、日本も例外ではない。

日本では古くから「オレオレ詐欺」や「振り込め詐欺」という音声を使った詐欺が存在し、その被害総額は毎年数百億円規模に達している。ここにAI音声クローニングが掛け合わさると、詐欺師はもはや「それらしい声を演じる必要さえない」。機械が、本物の息子や孫の声で話してくれる。

企業においても、日本の業務文化――上司の指示に即座に従う文化、メールよりも電話を信頼する傾向、ハンコや手続きを省略することへの抵抗感が低い緊急時対応――が攻撃者に利用される可能性がある。「部長からの緊急電話」という文脈は、日本の組織においては特に有効な心理的武器になりうる。

逆説的な結論:アナログが最強のセキュリティになる

ここで、記事冒頭に触れた「皮肉な逆転現象」に戻ろう。

テクノロジーが進化するほど、人間の脆弱性は露出する。多要素認証(MFA)も、AIが本物の声でOTPを聞き出せば無効化される。メールの電子署名も、その後に「補足の電話」でAI音声が嘘の指示を上書きすれば意味をなさない。

そこで世界のセキュリティ研究者たちが行き着いた答えが、驚くほどシンプルなものだ。

「秘密の合言葉(コードワード)」
電話の声がどれほど本物に聞こえても、
事前に決めた合言葉を言えなければ、信じない。

家族間でも、会社の経理チームでも、「緊急の送金指示」が来たとき、決して電話だけで完結させない。事前に決めた暗号のようなキーワードを、声の主が言えるかどうかを確認する。AIは声は複製できても、非公開の情報は持っていない。

この「コードワード戦略」は、アメリカのFBI、ヨーロッパのEuropol、そして多くのセキュリティ専門家が実際に推奨している防御策だ。数千万円をかけたAIセキュリティシステムではなく、二人の間だけで決めた「今日の合言葉は?」という一言が、最も強力なバリアになるという逆説が、今の時代を象徴している。

組織・企業向けの実践的防衛策

  1. 「コールバック確認」を義務化する:どんなに緊急に見えても、送金や情報提供を求める電話には必ずコールバックを行う。発信元番号ではなく、公式ディレクトリに登録された番号にかけ直す。
  2. 送金承認の「二人以上ルール」:一定額以上の送金には、複数の異なるチャンネル(電話+メール、または対面)での承認を必須にする。一つのチャンネルがAIに乗っ取られても、もう一つが守りになる。
  3. 部署間の「コードワード制度」導入:特に経理・財務・IT部門では、緊急時に使うコードワードを定期的に更新して共有する。このコードワードはデジタルで送らず、対面や物理的な手段で共有する。
  4. OSINTで自社の「露出面積」を確認する:自社のCEOや幹部が公開している動画・音声を洗い出す。LinkedInやYouTubeで検索し、どれだけの音声サンプルが取得可能か把握することで、リスクを可視化できる。
  5. VoIP発信元の検証フロー整備:スプーフィング(なりすまし発信)に対応した電話システムを導入し、発信元番号だけで信頼を判断しないよう社内ルールを設ける。
  6. 「異常に急かされる感覚」を警戒フラグに:「今すぐ」「誰にも言わないで」「例外的な承認が必要」という言葉が出た瞬間に、一時停止する文化を作る。緊急感こそが攻撃者が作り出すものだと全員が知っていることが重要だ。
  7. セキュリティ訓練にVishingシミュレーションを追加:フィッシングメールの訓練と同様に、AI音声による偽の電話シミュレーションを定期的に実施する。知識ではなく「筋肉記憶」として対応策が染み込むまで繰り返す。
  8. 「視覚的違和感」の強制チェック: ビデオ会議中、相手が本物か疑わしい場合は「横を向いてほしい」「顔の前で手を振ってほしい」と頼むのが有効です。2026年のディープフェイクでも、横顔の輪郭や指が顔に重なる際の描写(アーティファクト)には、まだ僅かな乱れが生じやすい。
  9. デジタル署名付きビデオ: 一部の先進企業では、ZoomやTeamsの画面上に「本人確認済み」の認証バッジをリアルタイムで表示する仕組みを導入し始めている。

個人・家族向けの対策

  1. 家族間でコードワードを決める:「緊急事態だ、助けが必要だ」という電話が来たとき、声が本物に聞こえても、事前に決めた単語を言えなければ送金しない。コードワードはSNSや電話で共有せず、直接会って決める。
  2. 「感情的な緊急電話」は一度切る:家族の声で緊急事態を告げる電話が来たら、一旦電話を切り、その家族の別の連絡先(本人の携帯など)に直接かけ直して確認する。
  3. 声だけでお金を送らない原則:どれほど本物に聞こえても、電話のみで完結する送金には応じない。これは今後の鉄則だ。
  4. SNSの音声・動画投稿に注意する:自分や家族の声が入った動画をSNSで公開する場合、それが声のサンプルとして使われる可能性を理解しておく。特に長時間の音声はリスクが高い。
  5. 高齢の家族への啓発:「AI音声詐欺」は特に60歳以上のターゲットが多い。家族で話し合い、コードワード制度を導入する。「テクノロジーが発展したから、声だけでは確認できない時代になった」という事実を丁寧に伝える。

防衛側のAIは追いつけるのか

「AIで作った偽音声をAIで検出する」という軍拡競争も始まっている。PindropやResemble AIなどの企業が、リアルタイムでディープフェイク音声を検出するシステムを開発しており、市場は年28〜42%のペースで成長している。

しかし、ヨーロッパ議会のレポートが指摘するように、攻撃技術の進化は防御技術を常に上回る傾向がある。AIが生成する偽音声の品質が上がるほど、検出アルゴリズムの精度を上げることは難しくなる。現時点では、人間の検出率よりもAI検出ツールの精度がわずかに上回る程度に過ぎない。

つまり、技術だけに頼る防御は機能しない。最終的な防衛ラインは、やはり人間の「手順と疑いを持つ文化」だ。どれほど本物に聞こえても、定められた確認プロセスを踏む。これだけが、AIの「完璧ななりすまし」を無効化できる唯一の手段だ。

💡 技術的な自衛策(上級者向け)

自分の「デジタルフットプリント(声の露出)」を知りたい場合は、自分の名前をYouTube・LinkedIn・Podcastプラットフォームで検索し、どれだけの音声データが公開されているかを確認してほしい。「Have I Been Pwned(haveibeenpwned.com)」では自分のメールアドレスが過去のデータ漏洩に含まれているかを確認できる。これはOSINT観点から自分の露出面積を測る第一歩だ。企業のセキュリティ担当者であれば、自社の経営幹部について同様の調査を実施することを強く推奨する。

おわりに:デジタル信頼の再定義

声は、人類が数万年かけて育てた「信頼のインターフェース」だ。顔が見えなくても、声が聞こえれば「あの人だ」とわかる。その根本的な安心感を、AIが壊し始めている。

しかし、これは「AIの問題」ではない。根底にあるのは、私たちが長い間無意識に依存してきた「感覚的な信頼」の脆弱性だ。声がするから信じる。顔が見えるから信じる。急かされているから考える暇がない。これらはすべて、ハックされ得る人間の性質だ。

逆説的なことに、AIが最高度の偽装能力を持った今、人間に残された最強の防御は「意図的に疑うこと」と「事前に取り決めた約束ごと」という、極めてアナログな手段だ。コードワード一つが、数千万円を守る。手順を一つ挟む文化が、企業を守る。

AIが声を複製できる時代、私たちが信じるべきは「声そのもの」ではなく、「声が知っているはずのない秘密」だ。

EOF

本記事は公開されている調査報告書、セキュリティ機関の発表、研究論文をもとに作成しています。統計データはDeloitte Center for Financial Services、Group-IB、Keepnet Labs、Pindrop、欧州議会調査報告書(2025年)、Google Cloud Red Team Report等を参照。具体的な事件については各種報道機関および公式発表をもとに事実確認を行っています。

コメント