エラーを使用したディープフェイクの検出と分類
ホームページホームページ > ブログ > エラーを使用したディープフェイクの検出と分類

エラーを使用したディープフェイクの検出と分類

Jul 18, 2023

Scientific Reports volume 13、記事番号: 7422 (2023) この記事を引用

1607 アクセス

3 オルトメトリック

メトリクスの詳細

ソーシャル メディア上で簡単にアクセスできるコンテンツが広く入手できるようになったほか、高度なツールや安価なコンピューティング インフラストラクチャのおかげで、偽情報やデマの拡散を引き起こす可能性のあるディープ フェイクを作成することが非常に簡単になりました。 これらのテクノロジーを使用すると誰でも簡単にプロパガンダを作成できるため、この急速な進歩はパニックと混乱を引き起こす可能性があります。 したがって、このソーシャルメディアの時代では、本物のコンテンツと偽物のコンテンツを区別するための堅牢なシステムが重要になっています。 この論文では、ディープラーニングと機械学習ベースの方法論を採用して、ディープフェイク画像を自動分類する方法を提案します。 手作りの特徴抽出を採用する従来の機械学習 (ML) ベースのシステムでは、理解が不十分な、または単純な特徴を使用して簡単に表現できる、より複雑なパターンをキャプチャできません。 これらのシステムは、目に見えないデータに対してうまく一般化できません。 さらに、これらのシステムはデータのノイズや変動の影響を受けやすく、パフォーマンスが低下する可能性があります。 したがって、これらの問題により、データが絶えず進化する現実世界のアプリケーションでは、その有用性が制限される可能性があります。 提案されたフレームワークは、最初に画像のエラー レベル分析を実行して、画像が変更されているかどうかを判断します。 この画像は、詳細な特徴抽出のために畳み込みニューラル ネットワークに供給されます。 結果として得られる特徴ベクトルは、ハイパーパラメーターの最適化を実行することにより、サポート ベクター マシンと K 最近傍を介して分類されます。 提案された手法は、Residual Network と K-Nearest Neighbor によって 89.5% という最高精度を達成しました。 結果は、提案された手法の効率性と堅牢性を証明しています。 したがって、ディープフェイク画像を検出し、誹謗中傷やプロパガンダの潜在的な脅威を軽減するために使用できます。

過去 10 年間で、スマートフォン、カメラ、コンピューターなどの安価なデバイスのおかげで、写真や映画などのソーシャル メディア コンテンツがオンラインで急激に成長しました。 ソーシャル メディア アプリケーションの台頭により、人々はこのコンテンツをプラットフォーム間で迅速に共有できるようになり、オンライン コンテンツが大幅に増加し、簡単にアクセスできるようになりました。 同時に、誤った情報を広め、オンラインでの人々の評判を傷つけるために視聴覚コンテンツを操作するために導入できる、複雑かつ効率的な機械学習 (ML) およびディープラーニング (DL) アルゴリズムが大幅に進歩しました。 私たちは現在、偽情報の拡散が人々の意見を揺るがすために簡単に利用され、選挙操作や個人の名誉毀損に利用される可能性がある時代に生きています。 ディープフェイクの作成は近年劇的に進化しており、偽情報を世界中に広めるために使用される可能性があり、近いうちに深刻な脅威となる可能性があります。 ディープフェイクは、AI アルゴリズムを介して生成された合成オーディオおよびビデオ コンテンツです。 法的紛争や刑事訴訟において証拠としてビデオを使用することは標準的な慣行です。 証拠として提出されたビデオの信頼性と完全性は確立されなければなりません。 特にディープフェイクの生成がより複雑になると、これは困難な作業になることが予想されます。

ディープ フェイク ビデオには、顔の交換、合成、顔の特徴の操作といったカテゴリが存在します。 顔交換ディープフェイクでは、人の顔をソース人物の顔と交換して、その人が行っていない活動をターゲットにする偽のビデオを作成します1。これにより、その人の評判が傷つく可能性があります2。 リップシンクと呼ばれる別のタイプのディープ フェイクでは、ターゲットの人物の唇を操作して、特定のオーディオ トラックに従って動きを変更します。 口パクの目的は、誰かにその声で話させることで、被害者の攻撃者の声をシミュレートすることです。 パペットマスターでは、ターゲットの表情、目の動き、頭の動きを模倣してディープフェイクを生成します。 これは、架空のプロフィールを使用して、ソーシャル メディア上で虚偽の情報を広めるために行われます。 最後に重要なことですが、ディープ オーディオ フェイクや音声クローンは、個人の声を操作して、実際には話していない発言者と何かを関連付けるために使用されます1、3。

したがって、デジタル領域で真実を発見することの重要性が高まっています。 ディープフェイクは主に有害な目的で利用され、事実上誰でもすでに利用可能なツールを利用してディープフェイクを作成できるため、ディープフェイクへの対処は非常に困難です。 ディープフェイクを見つけるために、これまでにさまざまな戦略が打ち出されてきました。 ほとんどのアプリケーションも深層学習に基づいているため、悪い深層学習アプリケーションと優れた深層学習アプリケーションの間で競合が発生しています4。 そこで、この問題を解決するために、米国国防高等研究計画局 (DARPA) は、偽のデジタル メディア検出方法を開発するためのメディア フォレンジック研究計画を立ち上げました5。 さらに、Facebook は Microsoft と協力して、ディープフェイクが視聴者を欺くために使用されるのを防ぐために、AI ベースのディープフェイク検出チャレンジも発表しました6。

過去数年間にわたり、何人かの研究者が視聴覚メディアからディープフェイクを検出するために機械学習とディープラーニング(DL)の分野を研究してきました。 ML ベースのアルゴリズムでは、分類フェーズの前に、労働集約的で誤った手動の特徴抽出が使用されます。 その結果、大規模なデータベースを処理する場合、これらのシステムのパフォーマンスは不安定になります。 ただし、DL アルゴリズムはこれらのタスクを自動的に実行するため、ディープ フェイク検出を含むさまざまなアプリケーションで非常に役立つことが証明されています。 最も著名な DL モデルの 1 つである畳み込みニューラル ネットワーク (CNN) は、データベースから低レベルの特徴と高レベルの特徴を自動的に抽出する最先端のパフォーマンスにより、頻繁に使用されます。 したがって、これらの方法は世界中の科学者の関心を集めています7。

ディープフェイク検出というテーマについてはかなりの研究が行われていますが、効率と有効性の点では常に改善の可能性があります。 ディープフェイク生成技術は急速に改良されており、その結果、以前の技術では効果的に機能しない可能性のあるデータセットがますます困難になっていることに注意してください。 自動化された DL ベースのディープ フェイク検出システムの開発の背後にある動機は、ディープ フェイク テクノロジーによって引き起こされる潜在的な害を軽減することです。 ディープフェイク コンテンツは人々を欺き操作する可能性があり、政情不安、金融詐欺、風評被害などの深刻な結果を引き起こす可能性があります。 このようなシステムの開発は、さまざまな業界や分野に大きなプラスの影響を与える可能性があります。 これらのシステムは、メディアやオンライン コンテンツの信頼性と信頼性も向上します。 ディープフェイク技術がより洗練され、利用しやすくなるにつれて、本物のコンテンツと偽物のコンテンツを区別するための信頼できるツールを持つことが重要になります。 したがって、ソーシャルメディアのこの時代では、メディアからディープフェイクを検出するための堅牢なシステムを開発することが非常に必要になっています。 この論文は、Rimsha et al.8 によって提供された研究の継続です。 この論文では、画像がデジタル的に変更されたものであるかどうかを検出するために、AlexNet や VGG16 などの CNN アーキテクチャのパフォーマンスを比較しています。 この研究の主な貢献は次のとおりです。

この研究では、DL および ML ベースの手法を採用した新しいディープフェイク検出および分類手法を提案します。

提案されたフレームワークは、CNN の入力層に従って画像のサイズを変更し、次にエラー レベル分析を実行してピクセル レベルでのデジタル操作を検出することで画像を前処理します。

結果として得られる ELA 画像は、深い特徴抽出のために畳み込みニューラル ネットワーク、つまり GoogLeNet、ResNet18、および SqueezeNet に供給されます。

ハイパーパラメータチューニングによって最適なハイパーパラメータ設定を見つけるために、広範な実験が行われます。

提案された手法のパフォーマンスは、ディープフェイク検出用に公開されているデータセットで評価されます。

史上初のディープフェイクは1860年に開発され、南部の指導者ジョン・カルフーンの肖像画がプロパガンダのために頭部を米国大統領と交換することで巧妙に改変された。 これらの操作は通常、2 枚の写真内または写真間でアイテムを接合、ペイント、コピー移動することによって行われます。 次に、適切な後処理プロセスを使用して、視覚的な魅力、スケール、遠近感の一貫性を強化します。 これらの手順には、拡大縮小、回転、色の変更9、10が含まれます。 コンピューター グラフィックスと ML/DL 技術の発展により、これらの従来の操作方法に加えて、セマンティック一貫性が向上したデジタル操作のための一連の自動化手順が利用できるようになりました。 デジタル メディアの修正は、そのようなコンテンツを開発するためのソフトウェアが広く利用できるようになったために、比較的手頃な価格で行われるようになりました。 デジタルメディアにおける操作は非常に速いペースで増加しており、そのようなコンテンツを確実に検出および分析して善悪の違いを見つけるためのアルゴリズムの開発が必要です11、12、13。

ディープフェイクは比較的新しいテクノロジーであるにもかかわらず、研究のテーマとなっています。 近年、2020 年末にかけてディープ フェイクの記事が大幅に増加しました。ML および DL ベースの技術の出現により、多くの研究者がオーディオビジュアル コンテンツからディープ フェイクを検出する自動アルゴリズムを開発しました。 これらのテクニックは、本物のコンテンツと偽物のコンテンツを簡単に見分けるのに役立ちました。 ディープラーニングは、複雑で高次元のデータを表現できることでよく知られています11,14。 Matern ら 15 は、AUC 0.85 の多層パーセプトロン (MLP) を使用して、Face Forensics データセットから検出されたディープ フェイクを使用しました。 ただし、この研究では、目を開けた顔画像のみを考慮しています。 Agarwal et al.16 は、Open Face 2 ツールキットを使用して特徴を抽出し、SVM を介して分類を実行しました。 このシステムでは 93% の AUC が得られました。 ただし、人がカメラの方を向いていない場合、システムは誤った結果を返します。 Ciftci et al.17 の著者らは、医療信号の特徴を抽出し、CNN を介して 97% の精度で分類を実行しました。 ただし、特徴ベクトルが非常に大きいため、システムの計算は複雑になります。 Yang et al.18 の研究では、DLib を使用して 68 次元の顔のランドマークを抽出し、SVM を介してこれらの特徴を分類しました。 このシステムは 89% の ROC を達成しました。 ただし、このシステムはぼやけに対して堅牢ではなく、前処理段階が必要です。 Rossle et al.19 は、特徴分類に SVM + CNN を、特徴抽出に共起行列を採用しました。 このシステムは、Face Forensics データセットで 90.29% の精度を達成しました。 ただし、このシステムは圧縮ビデオでは悪い結果をもたらします。 McCloskey et al.20 は、実際のカメラと合成された実際の画像サンプル間の色の相違を利用するディープフェイク検出器を開発しました。 SVM 分類子は、入力サンプルからの色ベースの特徴に基づいてトレーニングされました。 ただし、システムは、前処理されていないぼやけた画像では問題が発生する可能性があります。

アラビア語のフェイク ニュース検出用の Fire Hawk オプティマイザーを備えたハイブリッド マルチタスク学習フレームワークは、アラビア語のフェイク ニュースを特定する問題に対処することを目的としています。 この研究では、複数のタスクの力を活用してフェイク ニュースをより正確かつ効率的に検出するハイブリッド アプローチを提案しています。 このフレームワークは、文の分類、スタンスの検出、関連性の予測という 3 つのタスクを組み合わせて使用​​し、ニュース記事の信頼性を判断します。 この研究では、フレームワークのパラメーターを微調整するために、自然にインスピレーションを得た最適化アルゴリズムである Fire Hawk Optimizer アルゴリズムの使用も示唆されています。 これにより、モデルの精度が向上し、パフォーマンスが向上します。 Fire Hawk Optimizer は、タカの狩猟行動からインスピレーションを得た効率的で堅牢なアルゴリズムです。 グローバルおよびローカルの検索戦略を使用して、最適なソリューションを検索します21。 in22 の著者らは、Convolution Vision Transformer (CVT) アーキテクチャを提案しています。CVT アーキテクチャは、アテンション メカニズムと畳み込み演算の組み合わせに依存しており、画像内のパターンをより効果的に認識するという点で CNN とは異なります。CVT アーキテクチャは、マルチヘッドの自己アテンション層と多層パーセプトロン (MLP) 層。 セルフ アテンション レイヤーは、畳み込み演算を必要とせずに入力画像の重要な領域に焦点を当てることを学習し、MLP レイヤーはこれらの領域から特徴を抽出するのに役立ちます。 抽出された特徴は出力層に転送され、最終的な分類決定が行われます。 ただし、このシステムはディープ アーキテクチャであるため、計算コストが高くなります。 Guarnera et al.23 は、特徴抽出に Expectation Maximization を使用し、分類方法として SVM、KNN、LDA を使用してディープ フェイク画像を特定しました。 ただし、システムは圧縮画像の認識に失敗します。 Nguyen ら 24 は、ディープフェイク コンテンツを検出するための CNN ベースのアーキテクチャを提案し、Face Forensics データセットで 83.7% の精度を取得しました。 ただし、このシステムは目に見えないケースをうまく一般化することができません。 Khalil et al.25 は、特徴抽出にはローカル バイナリ パターン (LBP) を、ディープ フェイク検出には CNN とカプセル ネットワークを採用しました。 モデルは Deep Fake Detection Challenge-Preview データセットでトレーニングされ、DFDC-Preview および Celeb-DF データセットでテストされました。 Afchar らによって開発されたディープ フェイク アプローチ 26 では MesoInception-4 が採用され、Face Forensics データセットを通じて 81.3% の真陽性率を達成しました。

ただし、このシステムでは特徴の抽出と分類の前に前処理が必要です。 したがって、低品質のビデオでは全体的なパフォーマンスが低下します。 Wang et al.27 は、ディープ フェイク分類における Residual Networks のパフォーマンスを評価しました。 著者らは、Face フォレンジック データセットからのビデオに ResNet と ResNeXt を採用しました。 Stehouwer らによる別の研究 28 では、著者らは、多様な偽顔データセットで 99% の総合精度を達成した、ディープ フェイク コンテンツ検出のための CNN ベースのアプローチを発表しました。 ただし、このシステムは、特徴ベクトルのサイズが非常に大きいため、計算コストが高くなります。 大幅な進歩にもかかわらず、既存の DL アルゴリズムはトレーニングにかかる​​計算コストが高く、ハイエンドの GPU または特殊なハードウェアが必要です。 このため、リソースが限られている研究者や組織が深層学習モデルを開発して展開することが困難になる可能性があります。 さらに、既存の DL アルゴリズムの一部は、モデルが複雑になりすぎて、一般化可能なパターンを学習するのではなくトレーニング データを記憶することを学習する場合に発生する過学習を引き起こす傾向があります。 これにより、新しい未確認データのパフォーマンスが低下する可能性があります。 現在の方法論の限界は、ML および DL ベースのアプローチを使用した堅牢で効率的なディープ フェイク検出および分類方法を開発する必要性が依然としてあることを証明しています。

このセクションでは、ディープ フェイクの検出に使用される提案されたワークフローについて説明します。 私たちが提案するフレームワークのワークフロー図を図 1 に示します。提案するシステムは 3 つの主要なステップで構成されます。(i) CNN の入力層に従って画像のサイズを変更することによる画像の前処理。次に、ピクセル レベルの変更を決定するために画像のエラー レベル分析を生成します。 (ii) CNN アーキテクチャによる詳細な特徴抽出 (iii) ハイパーパラメータ最適化の実行による SVM および KNN による分類。

提案手法のワークフロー図。

ELA としても知られるエラー レベル分析は、さまざまな圧縮レベルの画像セグメントを識別するために使用されるフォレンジック技術です。 これらの圧縮レベルを測定することにより、この方法は画像がデジタル編集を受けているかどうかを判断します。 この手法は .JPG 画像で最も効果的です。その場合、画像ピクセル全体がほぼ同じ圧縮レベルを持つ必要があり、改ざんの場合には異なる可能性があるからです29,30。

JPEG (Joint Photographic Experts Group) は、デジタル画像の非可逆圧縮技術です。 データ圧縮アルゴリズムは、データを圧縮するためにデータの一部を破棄 (損失) します。 圧縮レベルは、画像サイズと画質の間の許容可能な妥協点として使用できます。 通常、JPEG 圧縮率は 10:1 です。 JPEG 技術では、独立して圧縮された 8 × 8 ピクセルの画像グリッドが使用されます。 8 × 8 より大きい行列は理論的に操作が難しいか、ハードウェアでサポートされていません。一方、8 × 8 より小さい行列には十分な情報が不足しています。

したがって、圧縮された画像の品質は低くなります。 変更されていない画像のすべての 8 × 8 グリッドは同じエラー レベルになり、画像の再保存が可能になります。 画像全体に均一に分布した欠陥があるとすると、各正方形はほぼ同じペースで劣化するはずです。 変更された画像内の変更されたグリッドは、残りのグリッドよりもエラーの可能性が高くなります31。

エラ。 画像は 95% のエラー率で再保存され、2 つの画像の差が計算されます。 この技術は、ピクセルが極小値にあるかどうかをチェックすることによって、セルに変化があるかどうかを判断します8,32。 これは、データベースにデジタル改ざんがあるかどうかを判断するのに役立ちます。 図 2 に示すように、ELA はデータベース上で計算されます。

データセット画像に対する ELA の結果。

CNN の発見により、学者の間で CNN の人気が高まり、これまで諦めていた困難な問題に取り組む意欲が高まりました。 研究者は近年、ディープフェイク検出を含むさまざまな研究分野における複数の課題に対処するために、いくつかの CNN 設計を設計しました。 図 3 に示す CNN の一般的なアーキテクチャは、通常、互いに積み重ねられた多くの層で構成されます。 CNN のアーキテクチャは、特徴を学習するための畳み込み層で構成される特徴抽出モジュールと、画像の次元を削減するプーリング層で構成されます。 第二に、画像を分類するための完全接続 (FC) 層を含むモジュールで構成されます 33,34。

一般的な CNN アーキテクチャ。

画像は、深い特徴抽出のために畳み込みに渡される入力層を使用して入力されます。 このレイヤーは、ピクセル間の関係を維持することにより、画像から視覚的特徴を学習します。 この数学的計算は、指定されたサイズのフィルター/カーネルを使用して画像マトリックスに対して実行されます35。 max-pooling レイヤーは画像の寸法を削減します。 このプロセスは、トレーニング速度を向上させ、次のステージの計算負荷を軽減するのに役立ちます36。 一部のネットワークには、正規化層、つまりバッチ正規化層またはドロップアウト層が含まれる場合があります。 バッチ正規化層は、ミニバッチへの入力に対して標準化操作を実行することにより、ネットワーク トレーニングのパフォーマンスを安定させます。 一方、ドロップアウト層は、ネットワークの複雑さを軽減するために一部のノードをランダムにドロップし、ネットワークのパフォーマンスを向上させます37、38。 CNN の最後の層には、ソフトマックス確率関数を備えた FC 層が含まれます。 FC 層には、前のフェーズから抽出されたすべての特徴が保存されます。 これらの特徴は、画像分類のための分類器に供給されます38。 CNN アーキテクチャは人間の介入なしに重要な特徴を抽出できるため、この研究では GoogLeNet39、ResNet1831、SqueezeNet40 などの事前トレーニング済み CNN を使用しました。 ディープ ラーニング アーキテクチャをゼロから開発およびトレーニングすることは、時間がかかる作業であるだけでなく、計算用のリソースも必要であることに注意してください。 したがって、私たちが提案するフレームワークでは、事前トレーニングされた CNN アーキテクチャを深い特徴抽出器として使用します。

Microsoft は 2015 年に、カーネル サイズ 3 × 3 の複数の畳み込み層、FC 層、その後に分類用の追加のソフトマックス層で構成される Residual Network (ResNet) アーキテクチャを導入しました。 1 つ以上のレベルをスキップするショートカット接続を使用するため、残余ネットワークは効率的であり、計算コストが低くなります41。 すべてのレイヤー スタックが指定された基礎となるマッピングに即座に一致すると期待するのではなく、レイヤーは残りのマッピングに適合します。 結果として得られる出力がスタックされたレイヤーの出力に追加される結果、これらの高速接続により、トレーニング中の価値の損失が軽減されます。 この機能は、従来の CNN よりも大幅に高速にアルゴリズムをトレーニングするのにも役立ちます。

さらに、このマッピングには出力が次の層に転送されるため、パラメーターがありません。 ResNet アーキテクチャは、分類ジョブで上位 5% の最低エラー率 (3.57%) を達成することで、他の CNN を上回りました 31,42。 ResNet50 のアーキテクチャを図 443 に示します。

ResNet18 アーキテクチャ 44.

SqueezNet は、カリフォルニア大学バークレー校とスタンフォード大学の研究者によって開発された、非常に軽量で小型のアーキテクチャです。 小規模な CNN アーキテクチャは、分散トレーニングでサーバー間の通信が少なくて済むため便利です。 さらに、これらの CNN はトレーニングも高速で、必要なメモリも少ないため、従来のディープ CNN と比べて計算コストが低くなります。 研究者らは、アーキテクチャを変更することで、SqueezeNet がより小型の CNN45 で AlexNet レベルの精度を達成できると主張しています。 1 × 1 フィルターに含まれるパラメーターの数は 3 × 3 フィルターよりも 9 倍少ないため、これらの変更では 3 × 3 フィルターが 1 × 1 フィルターに置き換えられました。 さらに、入力チャンネルの数はスクイーズ レイヤーを介して 3 × 3 フィルターに削減され、全体のパラメーター数が減少します。

最後に重要なことですが、ダウンサンプリングはネットワークの非常に遅い段階で実行されるため、畳み込み層の大規模なアクティベーション マップが分類精度を向上させると言われています40。 Google の研究者によって開発された GoogLeNet は、1 × 1 の畳み込みフィルター サイズ、グローバル平均プーリング、224 × 224 × 3 の入力サイズを使用する 22 層の深層畳み込みニューラル ネットワークです。GoogLeNet のアーキテクチャを図 5 に示します。ネットワーク アーキテクチャの深さを増やすために、畳み込みフィルタのサイズは 1 × 1 に削減されます。さらに、ネットワークはアーキテクチャの終わりに向けてグローバル平均プーリングを使用し、7 × 7 の特徴マップを入力してそれを 1 × に平均化します。 1 つの機能マップ。 これにより、トレーニング可能なパラメータが減り、システムのパフォーマンスが向上します。 このアーキテクチャでは 0.7 のドロップアウト正則化も使用されており、特徴は FC 層に保存されます39。

GoogLeNet アーキテクチャ 46.

CNN は、畳み込み層、プーリング層、全結合層を使用して画像から特徴を階層的に抽出します。 CNN によって抽出される特徴は、低レベルの特徴と高レベルの特徴の 2 つのカテゴリに大別できます。 低レベルの特徴には、エッジ、コーナー、強度の変化が含まれます。 CNN は、画像内のエッジを強調表示するフィルターを使用して入力画像を畳み込むことにより、エッジを検出できます。 また、角を強調表示するフィルターを使用して入力画像を畳み込むことにより、角を検出することもできます。 さらに、CNN は、特定の色を強調表示するフィルターを入力画像に畳み込むことで、色の特徴を抽出できます。 一方、高レベルの機能には、テクスチャ、オブジェクト、コンテキストおよび階層機能が含まれます。 画像からのテクスチャは、さまざまなテクスチャを強調表示するフィルタを使用して入力画像を畳み込むことによって検出されます。 CNN は、さまざまな形状を強調表示するフィルターを使用して入力画像を畳み込み、オブジェクトを検出します。 一方、コンテキスト上の特徴は、画像内のさまざまなオブジェクト間の関係を考慮することによって抽出されます。 最後に、CNN は、複数の畳み込み層を互いに積み重ねることによって、階層的な特徴を抽出する方法を学習できます。 下位層は低レベルの特徴を抽出し、上位層は高レベルの特徴を抽出します。

このフェーズでは、SVM および KNN 分類器を介して深い CNN 特徴を分類しました。 KNN は、そのシンプルさと堅牢性により他の多くの既存の分類器よりも優れたパフォーマンスを発揮するため、分類および回帰タスクにおいて研究コミュニティで非常に人気を得ています。 KNN は、テスト サンプル (k) とその近傍間の距離を計算し、k テスト サンプルを最も近い近傍にグループ化します。 KNN 分類器を図 6 に示します。

KNN。

この研究で使用される 2 番目の分類器は SVM です。これは、最小限のデータセットでも高速で優れた予測結果が得られるため、多くの研究分野で頻繁に使用される広く普及している分類器です。 分類器は、2 つのクラスを分離する最大のマージンを持つ平面を見つけます。 マージンが広いほど、分類器の分類パフォーマンスは向上します 30,47。 図 7A は、特定の分類問題に対する潜在的な超平面を示し、図 7B は、その問題に対して SVM によって決定された最適な超平面を示します。

考えられる SVM 超平面 30.

この研究では、延世大学の計算知能および写真研究室によって編集された、公的にアクセス可能なデータセットを使用しています。 延世大学の計算知能および写真研究室が提供する本物の顔と偽物の顔のデータベースは、本物の人間の顔と偽物の人間の顔の両方の画像を含むデータセットです。 このデータセットは、顔認識および検証システム、特に偽の画像や操作された画像を検出するように設計されたシステムの研究開発で使用するために設計されました。 データセット内の各画像には本物か偽物のラベルが付けられ、データセットには被写体の年齢、性別、民族性や偽物の画像に使用された操作技術などの画像に関する追加情報も含まれています。 さらに、画像には、目、鼻、口、または顔全体で分割されたさまざまな顔が含まれています。 図 848 に示すように、操作された画像はさらに、イージー画像、ミッド画像、ハード画像の 3 つのカテゴリに細分化されます。

実際の画像と編集された画像を示すデータセットからの画像サンプル。

評価メトリクスは、機械学習でモデルのパフォーマンスを測定するために使用されます。 機械学習モデルは、データから学習し、そのデータに基づいて予測や意思決定を行うように設計されています。 モデルのパフォーマンスを評価して、モデルのパフォーマンスがどの程度優れているかを理解し、必要な改善を行うことが重要です。 最も一般的に使用される手法の 1 つは混同行列です。これは、一連のテスト データの実際のクラスと予測されたクラスを比較することによって、分類モデルのパフォーマンスを評価するためのテーブルです。 これは、真陽性 (TP)、偽陽性 (FP)、真陰性 (TN)、および偽陰性 (FN) の 4 つの値のマトリックスです。 提案されたフレームワークは、精度、適合率、再現率、および f1 スコアを使用して評価されます。 精度は広く使用されている指標ですが、バランスの取れたデータセットの場合には適しています。 したがって、再現率と精度の両方を単一の指標に結合する F1 スコアを使用して、提案された方法も評価しました。 モデルを評価するために使用したすべての評価指標は、式 1 から計算されます。 (1) から式 (1) (4)。

ディープフェイクの問題が深刻化しているため、研究者らは近年、メディアフォレンジックへの関心を高めている。 ディープフェイク技術は、リップシンク、顔の交換、人間の老化防止など、メディア分野でさまざまな用途に利用されています。 DL およびディープ フェイク テクノロジーの進歩は、ビジネス、エンターテイメント、映画業界にさまざまな有益な用途をもたらしていますが、有害な目的を果たし、人々が真実を信じられなくなる原因となる可能性があります49,50。 したがって、ソーシャルメディアのこの時代では、本物と偽物の違いを見つけることが重要になっています。 ディープフェイク作成技術の進歩により、人間の目でディープフェイクコンテンツを見つけることはますます困難になっています。 したがって、人間の介入なしにこれらの偽メディアを正確に分類するための堅牢なシステムを開発する必要があります。

この研究では、ML および DL ベースの技術を使用してディープ フェイク画像を検出および分類するための、新しくて堅牢なアーキテクチャを提案します。 提案されたフレームワークは、ELA を見つけるために前処理アプローチを採用しています。 ELA は、画像をピクセル レベルで分析することで、画像の一部が変更されているかどうかを検出するのに役立ちます。 これらの画像はその後、深い CNN アーキテクチャ (SqueezeNet、ResNet18、GoogLeNet) に供給されて、深い特徴が抽出されます。 次に、深い特徴は SVM と KNN によって分類されます。 ResNet の混同行列と ML 分類器から得られた結果を図 9 に示します。特徴ベクトルは、KNN によって 89.5% の最高精度を達成しました。 結論に達する前に、両方の分類器のさまざまなハイパーパラメータをテストしました。 提案された方法は、距離メトリックとしての相関と合計 881 の近傍に関する KNN を介して 89.5% の精度を達成しました。 SVM は、2.3 スケールのガウス カーネルで 88.6% の精度を達成しました。

ResNet18 の混同行列から得られた結果。

ハイパーパラメータの最適化は、自動アルゴリズムに最適なハイパーパラメータのセットを選択するプロセスです。 モデルのパフォーマンスはハイパーパラメーターの選択に依存するため、モデルの最適化は非常に重要です。 カーネル関数、スケール、番号などのパラメータを最適化しました。 KNN と SVM の近傍の数、距離メトリックなど。 さまざまな特徴ベクトルの最適なパラメトリック設定から得られた結果を太字で強調表示し、表 1 に示します。(a) SVM と (b) KNN の両方の混同行列を図 10 に示します。

(a) SVM、(b) KNN による ResNet18 の混同行列。

さらに、GoogLeNet から取得した特徴ベクトルは、合計 154 個の近傍の距離メトリックとして、チェビシェフ上の KNN を介して 81% という最高の精度を取得しました。 SVM は、カーネル スケール 0.41 のガウス カーネルで特徴ベクトルを 80.9% の精度で分類しました。 テスト済みの最適なメトリクス (太字で強調表示) を表 2 に示します。他の評価メトリクスの詳細な結果を図 11 に示し、図 12 にその混同マトリクスを示します。

ACC、PRE、REC、F1 スコアに関する GoogLeNet の結果。

GoogLeNet から取得した混同行列。

SVM と KNN は、SqueezeNet からの特徴ベクトルをそれぞれ 69.4% と 68.8% で分類しました。 表 3 に示すように、分類器はさまざまなパラメーターで評価され、太字で強調表示されたパラメーターで最大のパフォーマンスが達成されました。 精度、適合率、再現率、および f1 スコアの結果を図 13 に示します。混同行列を図 14 に示します。

SqueezeNet の混同行列から得られた結果。

SqueezeNet から取得した混同行列。

この論文では、DL および ML ベースの技術を介してディープ フェイク画像を検出および分類するための新しいアーキテクチャを提案します。 提案されたフレームワークは、最初に画像を前処理して ELA を生成します。これは、画像がデジタル操作されたかどうかを判断するのに役立ちます。 結果の ELA 画像は、詳細な特徴抽出のために GoogLeNet、ResNet18、ShuffleNet などの CNN アーキテクチャに供給されます。 その後、分類は SVM と KNN を介して実行されます。 提案された手法は、ResNet18 と KNN を介して 89.5% の最高精度を達成しました。 残差ネットワークは非常に効率的かつ軽量であり、その堅牢な特徴抽出および分類技術により、他の多くの従来の分類子よりもはるかに優れたパフォーマンスを発揮します。 詳細な比較を表 4 に示します。Mittal ら 51 は、ディープフェイク検出に Alex Net を採用しました。 しかし、研究の結果は非常に悪い結果となりました。 Chandani et al.50 は、ディープフェイク画像を検出するために残留ネットワーク フレームワークを使用しました。 同様に、Matern らによる MLP と Meso Inception 4 15 および Afchar らによる 26 では、それぞれ 80% 以上の精度が得られました。 ディープ CNN であるにもかかわらず、Residual Networks は、システムのパフォーマンスの向上にも役立つショートカット接続により、はるかに高速に実行されます。 したがって、提案された方法は、ResNet18 から抽出された特徴に対してはるかに優れたパフォーマンスを示しました。

ディープフェイクは、偽情報やデマを人々に広めるために広く導入されている新しい技術です。 すべてのディープ フェイク コンテンツに悪意があるわけではありませんが、中には世界を脅かすものもあるため、発見する必要があります。 この研究の主な目的は、ディープフェイク画像を識別するための信頼できる方法を発見することでした。 多くの研究者が、さまざまなアプローチを使用してディープ フェイク コンテンツを検出するために精力的に取り組んできました。 ただし、この研究の重要性は、良好な結果を得るために DL および ML ベースの手法を使用することにあります。 この研究は、多くの既存のシステムよりも正確にディープ フェイク画像を検出および分類するための新しいフレームワークを提示します。 提案された方法では、ELA を使用して画像を前処理し、ピクセル レベルでの操作を検出します。 ELA で生成された画像は、特徴抽出のために CNN に供給されます。 これらの深い特徴は、SVM と KNN を使用して最終的に分類されます。 提案された手法は、ResNet18 の特徴ベクトルと SVM 分類器によって 89.5% の最高精度を達成しました。 結果は、提案された方法の堅牢性を証明しています。 したがって、システムはディープフェイク画像をリアルタイムで検出できます。 ただし、提案された方法は画像ベースのデータを使用して開発されています。 将来的には、ビデオベースのディープフェイク データセットに関する他のいくつかの CNN アーキテクチャを調査する予定です。 また、コミュニティの人々から本物のディープ フェイク データセットを取得し、ML および DL 技術を使用してディープ フェイク画像と通常の画像を区別して、データセットをより有用かつ堅牢にすることも目指しています。 この画期的な取り組みが私たちの社会に大きな影響を与えることは注目に値します。 このテクノロジーを使用すると、偽の被害者は画像が本物か偽物かを迅速に判断できます。 私たちの研究によりディープフェイク画像を認識できるようになるため、人々は今後も警戒し続けるでしょう。

現在の研究中に使用および/または分析されたデータセットは、合理的な要求に応じて責任著者から入手できます。

ボイラン、JF ディープフェイク技術は民主主義を破壊するだろう (ニューヨーク・タイムズ、2018)。

Google スカラー

ハーウェル・D・スカーレット・ヨハンソン、AI生成の偽セックスビデオについて「誰かが私の画像を切り貼りするのを止めることはできない」。 J. ワシグトン ポスト 31、12 (2018)。

Google スカラー

マスード、M.ら。 ディープフェイクの生成と検出: 最先端の未解決の課題、対策、今後の方向性。 応用知性。 53、1–53 (2022)。

Google スカラー

Amin, R.、Al Ghamdi, MA、Almotiri, SH、Alruily, M. 深層学習によるヘルスケア技術: 問題、課題、機会。 IEEE Access 9、98523–98541 (2021)。

記事 Google Scholar

チュレク、MJ 国防高等研究計画庁。 https://www.darpa.mil/program/media-forensics。 メディアフォレンジック (MediFor)。 Vol. 10(2019)。

Schroepfer, MJF データセットの作成とディープフェイクへの挑戦。 アーティフ。 知性。 5、263 (2019)。

Google スカラー

Kibriya, H. et al. 深層特徴融合と有名な機械学習分類器を使用した、斬新で効果的な脳腫瘍分類モデル。 Vol. 2022年(2022年)。

Rafique, R.、Nawaz, M.、Kibriya, H.、Masood, M. エラー レベル分析と深層学習を使用したディープフェイク検出。 2021 年に第 4 回コンピューティングおよび情報科学に関する国際会議 (ICCIS) が開催されます。 1–4 (IEEE、2021)。

Güera, D. & Delp, EJ リカレント ニューラル ネットワークを使用したディープフェイク ビデオ検出。 2018 年、高度なビデオおよび信号ベースの監視 (AVSS) に関する第 15 回 IEEE 国際会議。 1–6 (IEEE、2018)。

アリーム、S.ら。 うつ病の機械学習アルゴリズム: 診断、洞察、研究の方向性。 エレクトロニクス 11(7)、1111 (2022)。

記事 Google Scholar

Pavan Kumar, M. & Jayagopal, P. 敵対的生成ネットワーク: アプリケーションと課題に関する調査。 内部。 J.マルチメッド。 情報 10(1)、1–24 (2021)。

記事 Google Scholar

マンスール、M.ら。 Kinect を使用した非侵襲的な転倒検出のための機械学習アプローチ。 マルチメッド。 ツールアプリケーション 81(11)、15491–15519 (2022)。

記事 Google Scholar

Thies, J.、Zollhofer, M.、Stamminger, M.、Theobalt, C. & Nießner, M. Face2face: リアルタイムの顔キャプチャと rgb ビデオの再現。 コンピュータービジョンとパターン認識に関するIEEE会議議事録。 2387–2395 (2016)。

シャッド、HS 他畳み込みニューラルネットワークを用いたディープフェイク画像検出手法の比較解析 Vol. 2021年(令和3年)。

Matern, F.、Riess, C.、Stamminger, M. 視覚的アーティファクトを悪用してディープフェイクと顔の操作を暴露します。 2019 IEEE Winter Applications of Computer Vision Workshops (WACVW) に参加。 83–92 (IEEE、2019)。

Agarwal, S.、Farid, H.、Gu, Y.、He, M.、Nagano, K. & Li, H. 世界のリーダーをディープフェイクから守ります。 CVPRワークショップで。 Vol. 1. 38 (2019)。

Ciftci、UA、Demir、I. & ying、L. Fakecatcher: 生体信号を使用した合成ポートレートビデオの検出 (Google 特許、2021)。

Google スカラー

Yang, X.、Li, Y.、Lyu, S. 一貫性のない頭のポーズを使用したディープ フェイクを公開します。 ICASSP 2019–2019 音響、音声および信号処理に関する IEEE 国際会議 (ICASSP) 8261–8265。 (IEEE、2019)。

Rossler, A.、Cozzolino, D.、Verdoliva, L.、Riess, C.、Thies, J. & Nießner, M. Faceforensics++: 操作された顔画像を検出する方法を学習します。 コンピュータービジョンに関するIEEE/CVF国際会議議事録。 1–11 (2019)。

McCloskey, S. & Albright, M. 飽和キューを使用した GAN 生成画像の検出。 2019 IEEE 画像処理国際会議 (ICIP) で。 4584 – 4588。 (IEEE、2019)。

Abd Elaziz, M.、Dahou, A.、Orabi, DA、Alshathri, S.、Soliman、EM & Ewees、AAJM アラビア語のフェイク ニュース検出のための Fire Hawk オプティマイザーを備えたハイブリッド マルチタスク学習フレームワーク。 Vol. 11(2). 258 (2023)。

Wodajo, D. & Atnafu、SJAPA 畳み込みビジョントランスフォーマーを使用したディープフェイクビデオ検出 (2021)。

Guarnera, L.、Giudice, O.、Battiato, S. 畳み込みトレースの分析によるディープフェイク検出。 コンピュータービジョンとパターン認識ワークショップに関するIEEE/CVF会議の議事録。 666–667 (2020)。

Nguyen, HH、Fang, F.、山岸 J.、越前 I. 操作された顔画像およびビデオを検出およびセグメント化するためのマルチタスク学習。 2019 IEEE 10th International Conference on Biometrics Theory, Applications and Systems (BTAS) にて。 1~8。 (IEEE、2019)。

Khalil、SS、Youssef、SM、Saleh、SNJFI iCaps-Dfake: ディープフェイク画像およびビデオ検出用の統合カプセルベース モデル。 Vol. 13(4). 93(2021)。

Afchar, D.、Nozick, V.、Jyamagishi、J. & Echizen, I. Mesonet: コンパクトな顔面ビデオ偽造検出ネットワーク。 2018 年の情報フォレンジックとセキュリティに関する IEEE 国際ワークショップ (WIFS)。 1–7 (IEEE、2018)。

Wang, Y. & Dantcheva, A. ビデオには 1000 の嘘以上の価値があります。 ディープフェイクを検出するための 3DCNN アプローチの比較。 2020 年の第 15 回 IEEE 自動顔およびジェスチャ認識国際会議 (FG 2020)。 515–519。 (IEEE、2020)。

Cozzolino, D.、Thies, J.、Rössler, A.、Riess, C.、Nießner, M. & Verdoliva、LJAPA Forensictransfer: 偽造検出のための弱監視ドメイン適応 (2018)。

Huang, G.、Liu, Z.、Van Der Maaten, L.、Weinberger, KQ 高密度に接続された畳み込みネットワーク。 コンピュータービジョンとパターン認識に関するIEEE会議議事録。 4700–4708 (2017)。

LeCun, Y.、Bengio, Y.、ヒントン, G. 深層学習。 Nature 521(7553)、436–444 (2015)。

論文 ADS CAS PubMed Google Scholar

He、K.、Zhang、X.、Ren、S.、Sun、J. 画像認識のための深層残差学習。 コンピュータービジョンとパターン認識に関するIEEE会議議事録。 770–778 (2016)。

Nida, N.、Irtaza, A.、Ilyas, N. ELA と深層学習技術を使用した偽造顔検出。 2021 年国際ブルバン応用科学技術会議 (IBCAST) に出展します。 271–275 (IEEE、2021)。

Kibriya, H.、Masood, M.、Nawaz, M.、Rafique, R. & Rehman, S. 畳み込みニューラル ネットワークとサポート ベクター マシンを使用したマルチクラス脳腫瘍分類。 2021年モハマド・アリ・ジンナー大学国際コンピューティング会議(MAJICC)。 1–4 (IEEE、2021)。

Kibriya, H.、Masood, M.、Nawaz, M.、Nazir、TJMT 新しい CNN アーキテクチャを使用した脳腫瘍のマルチクラス分類。 マルチメッド。 ツールアプリケーション 81、1–17 (2022)。

記事 Google Scholar

Salman、FM および Abu-Naser、SS 深層学習を使用した本物の人間の顔と偽物の人間の顔の分類。 IJAER 6(3)、1–14 (2022)。

Google スカラー

Anaraki, AK、Ayati, M. & Kazemi, FJ 磁気共鳴画像法に基づく脳腫瘍のグレード分類と、畳み込みニューラル ネットワークと遺伝的アルゴリズムによる等級付け。 情報 39(1)、63–74 (2019)。

Google スカラー

Albawi, S.、Mohammed, TA、Al-Zawi, S. 畳み込みニューラル ネットワークの理解。 2017 年国際工学技術会議 (ICET) に参加。 1–6 (IEEE、2017)。

O'Shea, K. & Nash, RJ 『畳み込みニューラル ネットワークの概要』 (2015)。

セゲディ、C.ら。 畳み込みでさらに深くなります。 コンピュータービジョンとパターン認識に関するIEEE会議議事録。 1–9 (2015)。

Iandola、FN、Han、S.、Moskewicz、MW、Ashraf、K.、Dally、WJ & Keutzer、KJ SqueezeNet: 50 分の 1 のパラメータと 0.5 MB 未満のモデル サイズによる AlexNet レベルの精度 (2016)。

He、K.、Zhang、X.、Ren、S.、Sun、J. 画像認識のための深層残差学習。 米国ラスベガスで開催されたコンピューター ビジョンとパターン認識に関する IEEE 会議の議事録。 770–778 (2016)。

残差ネットワークの紹介。 https://www.geeksforgeeks.org/introduction-to-residual-networks/ (2020)。

アリ、L.ら。 コンクリート構造物の深部 CNN ベースの亀裂検出および位置特定技術の性能評価。 センサー 21(5)、1688 (2021)。

論文 ADS PubMed PubMed Central Google Scholar

Ramzan、F. et al. 安静状態の fMRI と残存ニューラル ネットワークを使用した、アルツハイマー病の段階の自動診断と多クラス分類のための深層学習アプローチ。 J.Med. システム。 44(2)、1–16 (2020)。

記事 MathSciNet Google Scholar

Mancini, M.、Costante, G.、Valigi, P. & Ciarfuglia, TA 完全畳み込みネットワークによる障害物検出のための高速でロバストな単眼深度推定。 2016 年の IEEE/RSJ インテリジェント ロボットとシステムに関する国際会議 (IROS)。 4296–4303 (IEEE、2016)。

Kasim, N.、Rahman, N.、Ibrahim, Z. & Mangshor, NA 深層学習を使用した有名人の顔認識。 インドネシアの J. Electr. 工学計算します。 科学。 12(2)、476–481 (2018)。

記事 Google Scholar

Rezgui, D. & Lachiri, Z. SVM ベースのアプローチを使用した ECG 生体認証。 電気学会論文誌エレクトロ。 電子。 工学 11、S94–S100 (2016)。

記事 Google Scholar

YU 計算知能写真研究室本物と偽物の顔検出 (2019)。

Tolosana, R.、Romero-Tapiador, S.、Fierrez, J. & Vera-Rodriguez, R. ディープフェイクの進化: 顔領域とフェイク検出パフォーマンスの分析。 パターン認識に関する国際会議で。 442–456 (Springer、2016)。

Mehra, A. カプセル ネットワークと長期短期記憶ネットワークを使用したディープフェイク検出 (トゥエンテ大学、2020)。

Google スカラー

Mittal, H.、Saraswat, M.、Bansal, JC & Nagar, A. 改良された量子にインスピレーションを得た進化ベースの特徴選択法を使用した偽顔画像分類。 2020 年の計算知能に関する IEEE シンポジウム シリーズ (SSCI)。 989–995 (IEEE、2020)。

Chandani, K. & Arora, M. ディープ ニューラル ネットワークを使用した自動顔偽造検出。 学際工学の進歩において。 205–214 (スプリンガー、2021)。

Lee, S.、Tariq, S.、Shin, Y. & Woo, SS Shallow-FakeFaceNet を使用した手作りの顔画像操作と GAN 生成の顔画像の検出。 応用ソフトコンピューティング。 105、107256 (2021)。

記事 Google Scholar

リファレンスをダウンロードする

この研究は、VSB(オストラヴァ工科大学)が実施した助成金 SP2023/007 のもと、チェコ共和国教育・青少年・スポーツ省の支援を受けました。

工学技術大学コンピューターサイエンス学部、タキシラ、パキスタン、47050

リムシャ・ラフィーク&ラシッド・アミン

全南大学校電気工学部、光州、61186、韓国

ラフマ・ガンタッシ

チャクワル大学コンピューターサイエンス学部、チャクワル、48800、パキスタン

ラシッド・アミン

定量的方法および経済情報学部、輸送および通信の運用経済学部、ジリナ大学、01026、ジリナ、スロバキア

ヤロスラフ・フンダ

電気通信学部、電気工学およびコンピュータサイエンス学部、VSB Technical University of Ostrava、70800、オストラヴァ、チェコ共和国

ヤロスラフ・フンダ

University of Applied Sciences and Technology, Universiti Tun Hussein Onn Malaysia, KM1 Jalan Pagoh, 84600, Pagoh, Johor, Malaysia

アイーダ・ムスタファ

ドゥルマ科学人文科学大学、シャクラ大学、シャクラ、11961、サウジアラビア

アスマ・ハッサン・アルシェリ

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

すべての著者が平等に貢献しました。

ラシッド・アミンへの通信。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Rafique, R.、Gantassi, R.、Amin, R. 他エラーレベルの分析とディープラーニングを使用したディープフェイクの検出と分類。 Sci Rep 13、7422 (2023)。 https://doi.org/10.1038/s41598-023-34629-3

引用をダウンロード

受信日: 2022 年 12 月 26 日

受理日: 2023 年 5 月 4 日

公開日: 2023 年 5 月 8 日

DOI: https://doi.org/10.1038/s41598-023-34629-3

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。