顔の感情認識のためのコンピュータビジョンに関する研究
ホームページホームページ > ニュース > 顔の感情認識のためのコンピュータビジョンに関する研究

顔の感情認識のためのコンピュータビジョンに関する研究

Jul 22, 2023

Scientific Reports volume 13、記事番号: 8425 (2023) この記事を引用

510 アクセス

1 オルトメトリック

メトリクスの詳細

人工知能はさまざまな分野で応用され成功していますが、その 1 つがコンピューター ビジョンです。 この研究では、顔感情認識 (FER) にディープ ニューラル ネットワーク (DNN) が採用されました。 この研究の目的の 1 つは、DNN モデルが FER に対して焦点を当てている重要な顔の特徴を特定することです。 特に、FER のタスクには、圧縮励起ネットワークと残差ニューラル ネットワークを組み合わせた畳み込みニューラル ネットワーク (CNN) を利用しました。 CNN の学習サンプルを提供する表情データベースとして、AffectNet と Real-World Affective Faces Database (RAF-DB) を利用しました。 特徴マップは、さらなる分析のために残余ブロックから抽出されました。 私たちの分析は、鼻と口の周りの特徴がニューラル ネットワークにとって重要な顔のランドマークであることを示しています。 クロスデータベース検証はデータベース間で実施されました。 AffectNet でトレーニングされたネットワーク モデルは、RAF-DB で検証されたときに 77.37% の精度を達成しました。一方、AffectNet で事前トレーニングされ、その後 RAF-DB で学習されたネットワーク モデルの検証精度は 83.37% でした。 この研究の成果は、ニューラル ネットワークの理解を深め、コンピューター ビジョンの精度の向上に役立つでしょう。

人間のコミュニケーションにおいて、顔の表情には重要な非言語情報が含まれており、言語コミュニケーションにさらなる手がかりや意味を与えることができます1。 いくつかの研究では、コミュニケーションの 60 ~ 80% が非言語的であると示唆されています2。 この非言語情報には、顔の表情、アイコンタクト、声のトーン、手のジェスチャー、物理的距離が含まれます。 特に表情分析は人気の研究テーマとなっている3。 顔の感情認識 (FER) は、自動操縦、教育、医療、心理治療 4、コンピュータ ビジョンにおける監視および心理分析などのヒューマン コンピュータ インタラクション (HCI) の分野に応用されています 5,6。

心理学とコンピュータ ビジョンでは、感情はカテゴリ モデルまたは次元 (価数と覚醒) モデルとして分類されます 7、8、9。 カテゴリカル モデルでは、エクマンら 7 は人間の基本的な感情を幸福、怒り、嫌悪、恐怖、悲しみ、驚きと定義しました。 次元モデルでは、感情は価度と覚醒を決定するための連続的な数値スケールによって評価されます。 FER はコンピュータ ビジョンにおける重要なタスクであり、多くの実際的な応用例があり、ディープ ニューラル ネットワークによる進歩の恩恵を受けて、FER に関する研究の数は近年増加しています 10、11、12、13。 特に、畳み込みニューラル ネットワーク (CNN) は、特徴の抽出に関して優れた結果を達成しています。 たとえば、He et al.14 は、2015 年に残差ニューラル ネットワーク (ResNet) アーキテクチャを提案しました。これは、深層ネットワークの勾配の消失と精度の低下の問題を解決するために、CNN に残差学習を追加しました。

何人かの著者は、カテゴリモデル 15、16、17、18、19、20、21、22、23 および次元モデル 15、23、24、25、26 に従って感情を分類するためにニューラル ネットワーク モデルを適用しました。 Huang27 は、感情認識を実行するために残差ブロック アーキテクチャを VGG CNN に適用し、精度の向上を実現しました。 Mao et al.28 は、POSTER V2 と呼ばれる新しい FER モデルを提案しました。これは、ウィンドウベースのクロスアテンションメカニズムと顔のランドマークのマルチスケールの特徴。 自動感情認識プロセスにより多くの情報を組み込むために、最近の研究では、時間的、聴覚的、視覚的モダリティなどのいくつかのモダリティをアルゴリズムに融合させています10、17、18、23、25。 さらに、注意メカニズムは、FER タスクに関していくつかの研究で採用されています 17、18、19、20、22、25。 Zhang et al.19 は、クラス活性化マッピングを適用して、モデルによって学習されたアテンション マップを分析しました。 アテンション マップを反転し、入力画像の一部をランダムに消去することで、モデルを正規化できることがわかりました。 Wang et al.22 は、FER の識別部分を強調するフェイス マスクを学習するための注意ブランチを導入しました。 これらの研究は、注意メカニズムが FER において重要な役割を果たすことを示しています。 FER のいくつかのアプローチでは、セルフ アテンション メカニズムを利用して、特徴抽出のための畳み込み層のセットを通じてローカルとグローバルの両方のコンテキストをキャプチャします29、30、31。 抽出された特徴は、関係アテンション モジュールの入力として使用されます。このモジュールは、セルフ アテンションを利用して、異なるパッチとコンテキストの間の関係をキャプチャします。

しかし、現実世界の設定ではノイズ、曖昧な注釈 32、および複雑なシーンが存在するため、顔認識システムの実際の展開は依然として困難な課題です。 アテンション モジュールはコンピュータ ビジョン タスクに効果的であることが証明されているため、アテンション モジュールを FER タスクに適用することは非常に興味深いものです。 さらに、心理学では、人間のFERに対する顔の特徴が分析されています。 Beaudry et al.35 によって提示された結果は、幸せな感情を観察するときは口が主要なランドマークであり、悲しい感情を観察するときは目が主要なランドマークであることを示唆しています。 同様に、DNN モデルは FER の識別特徴を抽出します。 クラス アクティベーション マッピングを適用して、各層でネットワークによって学習された識別機能を識別することは有益です。 クラス活性化マッピング法は、動き分析目的で目の周囲の位置認識に利用できることが示されています 37,38。 生成された特徴マップにより、開発されたモデルのパフォーマンスをより深く理解できるようになります。

この研究では、FER の比較的軽量なモデルを実現するために、ResNet-18 とともにスクイーズおよび励起モジュール (SENet) が使用されました。 このモデルのトレーニング可能なパラメーター (約 1,127 万) は、ResNet-50 に必要な約 2,300 万のパラメーターおよびビジョン トランスフォーマーの約 8,600 万のパラメーターよりも少ないです。 提案されたアプローチの有効性は、AffectNet と Real-World Affective Faces Database (RAF-DB) という 2 つの FER データセットで評価されました。 どちらのデータセットにも、さまざまな文化や人種のデータを含む、大量の顔の感情データが含まれています。 AffectNet の画像数は RAF-DB の約 20 倍です。 AffectNet の画像は、RAF-DB の画像よりも多様でワイルドです。 ニューラル ネットワークは、AffectNet と RAF-DB から感情情報を抽出するようにトレーニングされました。 AffectNet データセットと RAF-DB 間のデータベース間の検証が実施されました。 結果は、AffectNet を使用して 79.08% のトレーニング精度と 56.54% の検証精度が達成されたことを示しています。 RAF-DB では、トレーニング精度 76.51% と検証精度 65.67% が達成されました。 転移学習は、AffectNet で取得した事前学習済みの重みを使用して RAF-DB に適用されました。 RAF-DB データセットでは、転移学習後の予測精度が大幅に向上します。 この結果は、特定のアプリケーション向けに、特定の文化、地域、社会的環境を持つ小規模なデータセットに対して転移学習を実行できることを示唆しています36。 転移学習により、モデルはより小さなデータベースで特定の集団の顔の感情を学習し、正確な結果を得ることができます。 さらに、ネットワークによってキャプチャされた重要な顔のランドマークを識別するために、ソフトマックス スコアが 90% を超える AffectNet および RAF-DB の画像が選択されました。 浅い層では、抽出された主要な特徴は細い線であるのに対し、深い層では、口と鼻の近くの領域がより重要であることがわかります。

AffectNet データベースには、Google、Bing、Yahoo の 3 つの検索エンジンから取得した 456,349 枚の顔の感情の画像が 6 つの異なる言語で含まれています。 画像には、中立、幸福、悲しみ、驚き、恐怖、嫌悪、怒り、軽蔑、なし、不確実、無表情の 11 の感情がラベル付けされました。 このうち、「不確実」とは、他のカテゴリに分類できない画像を指し、「非顔」とは、誇張された表現、アニメーション、描画、透かしなどが含まれる画像を指します。 Mollahosseini ら 15 は、AffectNet で定義された感情を手動で分類するためにアノテーターを雇いました。 さらに、AffectNet は、各感情カテゴリの画像数の点で非常に不均衡です。 たとえば、「幸せ」を表す画像の数は、「嫌悪感」を表す画像の数よりもほぼ 30 倍多くなります。 各カテゴリの画像の数を表 1 に示します。図 1 は、AffectNet に含まれる 11 の感情のサンプル画像を示しています。 この研究では、AffectNet で驚き、恐怖、嫌悪、怒り、悲しみ、幸福、中立の 7 つのカテゴリを使用します。

AffectNet データベースに含まれる顔の画像カテゴリ 12.

RAF-DB は、北京郵電大学のパターン認識およびインテリジェント システム研究所 (PRIS Lab) によって提供されています39。 このデータベースは、インターネットから取得した 300,000 件を超える顔画像で構成されており、驚き、恐怖、嫌悪、怒り、悲しみ、幸福、中立の 7 つのカテゴリに分類されています。 各画像には、5 つの正確なランドマーク位置と 37 個の自動ランドマーク位置が含まれています。 RAF-DB には、年齢、人種、頭のジェスチャー、光曝露レベル、ブロッキングに関するさまざまな情報も含まれています。 トレーニング セットには、テスト セットの 5 倍の画像が含まれています。 図 2 は、RAF-DB に含まれる 7 つの感情のサンプル画像を示しています。 表 1 は、この記事で使用された各データベースの感情ごとの画像の数を示しています。

RAF-DB データベースに含まれる顔の画像カテゴリ37。

SENet は、2017 年に開発された新しい画像認識アーキテクチャです40。このネットワークは、特徴チャネル間の相関関係を比較することで重要な特徴を強化し、分類精度の向上を実現します。 図 3 は、3 つの主要な操作を含む SENet アーキテクチャを示しています。 スクイーズ操作は、前の畳み込み層から大域的な特徴情報を抽出し、特徴マップ上で大域的な平均プーリングを実行して、サイズ 1 × 1 × \({\text{C}}\) (チャネル数) の特徴テンソル (Z) を取得します。 )、\({\text{c}} - {\text{th}}\) 要素は次のように計算されます。

ここで、 \(F_{sq}\) はグローバル平均プーリング演算、 \(u_{c}\) は \({\text{c}} - {\text{th}}\) の 2 次元行列、 W × H は各チャネルの寸法を表し、C はチャネル数を表します。

SENet インセプション モジュールのスキーマ。

式 (1) の後には、完全に接続された 2 つの層が続きます。 最初の層は、チャネルの数を \({\text{C}}\) から \({\text{C}}/{\text{r}}\) に減らして、必要な計算数を減らします (r は圧縮率)、2 番目の層ではチャネル数が \({\text{C}}\) に増加します。 励磁動作は次のように定義されます。

ここで、 \({\upsigma }\) はシグモイド活性化関数、 \(\delta\) は整流線形単位 (ReLU) 励起関数、 \(W_{1}\) と \(W_{2}\) です。は、それぞれ次元を削減および増加するための重みです。

スケール操作では、特徴テンソルに励起を乗算します。 この操作では、特徴学習を通じて各チャネルの重要性を取得します。 次に、コンピュータの主要な情報とマイナーな情報を識別するために、対応するチャネルに増加した重みが乗算されます38。 ブロックの最終出力を取得するために使用されるスケール演算の式は次のとおりです。

ここで、ドットはチャネルごとの乗算演算、\(S_{c}\) は励起演算の出力です。

ResNet は、ディープ ネットワークにおける勾配消失問題を解決するために He らによって提案されました 11。 ResNet は、従来の CNN に残差ブロックを導入します。 図 4 は、ResNet アーキテクチャの残差ブロックを示しています。 残差ブロックの概念は、ResNet 内の前の畳み込み層からの出力を次の畳み込み層と結合することです。 残留ブロックは、より深いネットワークで遭遇する勾配消失の問題を軽減することが、いくつかの研究で示されています。 したがって、残差ブロックはいくつかのアーキテクチャで採用されています 37,38。

ResNet アーキテクチャの残りのブロック。

SE-ResNet は、上記の SENet と ResNet アーキテクチャを組み合わせて、SENet から ResNet に SE ブロックを追加します。 SE ブロックは、各チャネルの重要性をキャプチャして、チャネルに主要な情報が含まれているか、マイナーな情報が含まれているかを判断するために使用されます。 前の畳み込み層からの特徴情報は、残差ブロックによって次の層と結合されます。 この方法により、ネットワーク層の増加中に発生する勾配消失問題によって引き起こされる精度の低下を軽減できます。 図 5 は、SE-ResNet のネットワーク アーキテクチャを示しています。

SE-Resnet モジュールのスキーマ。

この研究では、AffectNet と RAF-DB が同一のカテゴリで検証されていることを確認するために、AffectNet から 7 つのカテゴリを抽出しました。 SE-ResNet アーキテクチャは、トレーニングとテスト用のニューラル ネットワーク モデルとして採用されました。 RAF-DB と AffectNet の間で比較とデータベース間の検証が行われました。 より良いパフォーマンスを達成するために、転移学習技術が使用されました。 AffectNet でトレーニングされたモデルは、RAF-DB をトレーニングするための事前トレーニング済みモデルとして適用されました。

各 SE ブロックから得られた特徴マップは、どの顔のランドマークにネットワークの主要な情報が含まれているかを判断するために印刷されました。 客観性と正確性を確保するために、ソフトマックス スコアが 90% を超える顔の感情画像のみが採用されました。 AffectNet から印刷された特徴マップの例を図 6 に示します。RAF-DB から印刷された特徴マップを図 7 に示します。

さまざまな SE ブロック層の機能マップ (AffectNet)。

さまざまな SE ブロック層の機能マップ (RAF-DB)。

この実験では、トレーニング ハードウェアは NVIDIA TITAN RTX 24 GB GPU でした。 入力画像サイズは、データ拡張ありで 256 × 256 ピクセルでした。 学習処理では、入力画像の階調を変更しました。 画像は +/-30 度の間でランダムに回転され、四隅と中央に従って 224 × 224 ピクセル サイズの 5 つの画像に切り取られました。 検証の目的で、入力画像は中央から最終サイズ 224 × 224 ピクセルまで切り取られました。 最適化アルゴリズムと損失関数は、それぞれ確率的勾配降下法と交差エントロピー損失関数でした。 20 のエポックが使用され、初期学習率は 0.01 に設定されました。 運動量は 0.9、トレーニングのバッチ サイズは 100 でした。

この研究では、AffectNet データセットと RAF-DB がデータベース間で検証されました。 AffectNet でトレーニングされたモデルは RAF-DB の予測に使用され、RAF-DB でトレーニングされたモデルは AffectNet の予測に使用されました。 結果を表 2 に示します。AffectNet は顔の感情データとより多くの画像に関してより多様性を示すため、AffectNet でトレーニングされたモデルが RAF-DB を予測した場合、77.37% の精度が達成され、これは精度を大幅に上回りました。 RAF-DB での直接トレーニングによって達成されました (65.67%)。 対照的に、RAF-DB でトレーニングされたモデルによって予測された AffectNet では、低い精度 (42.6%) が得られました。 この違いは、AffectNet の画像の量が多く、より複雑であるという事実によって理解できます。

この研究では、AffectNet と SE-ResNet による RAF-DB で達成された精度が比較されました。 表 3 に示すように、RAF-DB の方が AffectNet よりも高い精度が得られます。ただし、RAF-DB データセットはより制約された画像を示しているため、これは予想通りでした。 AffectNet で提案されたモデルの精度は 56% であり、AffectNet を提案した元の論文 19 で得られた精度 58% よりわずかに低くなります。 ただし、元の論文で述べたように 15、2 人のヒューマン アノテーター間の一致は、36,000 枚の画像では 60% でした。 私たちの結果はこの一致率に匹敵します。

さらに、AffectNet でモデルを事前トレーニングし、続いて RAF-DB でトレーニングすることで転移学習を実行しました。 表 4 に示すように、RAF-DB での検証精度は 26.95% ([(事前トレーニング済みモデルを使用した場合の精度 - 事前トレーニング済みモデルを使用しない場合の精度)/事前トレーニング済みモデルを使用しない場合の精度 = (83.37–65.67) / 65.67] × 100%) 増加しました。は、RAF-DB で直接トレーニングされたモデルよりも高かった。 マルチリージョンアンサンブル CNN によって得られた 76.73% の精度と比較すると、単一ネットワークによる転移学習は、グローバル特徴とローカル特徴を利用するアンサンブル CNN よりも優れたパフォーマンスを発揮します。 この結果は、データセットの多様性により、AffectNet が有用な事前トレーニング済み重みを提供することを示しています。 AffectNet データセット内の画像の多様な文化的および人種的背景は、より代表的で包括的なトレーニング セットを提供し、より堅牢で正確な認識システムにつながります。 この結果は、FER アルゴリズムの開発と展開において、データの多様性と転移学習を考慮することの重要性を浮き彫りにしています。

AffectNetとRAF-DBのAffectNetでトレーニングされたモデルによって予測された正規化された混同行列をそれぞれ図8aと図8bに示します。 RAF-DBの転移学習後のモデルによって予測された正規化された混同行列を図8cに示します。 図 8a と b は、このモデルが画像を誤って「中立」として分類する傾向があることを示しています。 これは、AffectNet から学習した識別特徴が「中立」カテゴリと他のカテゴリの間で類似していることを示唆しています。 さらに、図 8b と図 8c の比較は、転移学習後、モデルが RAF-DB 内の感情をより正確かつ均一な方法で分類していることを示しています。

AffectNet と RAF-DB の正規化された混同行列 (a) AffectNet、(b) RAF-DB、および (c) 事前トレーニング済みモデルを使用した RAF-DB。

表 1 に示すように、正規化された混同行列から、分類精度がデータセット内の画像の数と正の相関があることがわかります。図 8a では、AffectNet データセットに含まれる「嫌悪感」画像の数が最も少ないことがわかります。そのため、正規化された混同行列の精度が最低になります。 対照的に、「幸せ」カテゴリの画像の数は AffectNet で最も多く、したがって、このカテゴリの正規化混同行列で最高の精度が得られます。 RAF-DB の図 8b と図 8c からも同じ結論が得られます。

この研究では、ネットワークが顔の感情を分類するために学習する重要な特徴を調べます。 ソフトマックス スコア (P) が 90% を超える AffectNet の特徴マップを図 9 に視覚化します。口、鼻、その他の顔のラインが主要な情報であり、目と耳がマイナーな情報であることが示されています。 これは、ニューラル ネットワークが幸せな感情を予測する場合、口が主要なランドマークであるという Beaudry et al.35 で見つかった結果と似ています。 誤って分類された画像の特徴マップも、正しく分類された画像と比較するために図 10 に視覚化されています。 誤って分類された画像の特徴マップを観察すると、画像内の重要な特徴が正しく分類された画像の特徴と類似していることが明らかです。 それは図から観察できます。 図 9 と 10 から、ネットワークは浅いレイヤーではエッジや線を検出し、より深いレイヤーでは口や鼻などの局所的な特徴に重点を置く傾向があることがわかります。

ソフトマックス スコアが 90% を超える特徴マップ (AffectNet)。

誤って分類された特徴マップ (AffectNet)。

アジア人の顔の感情データセット 41 は、19 歳から 67 歳までの 29 人の俳優の画像で構成されています。 画像は正面、横方向 3/4、および横方向の角度から撮影されました。 図 11 は、アジア人の顔の感情データセットからのいくつかの画像例を示しています。 各クラスの画像の数を表 5 に示します。このデータセットには、ラベル付きカテゴリが 6 つだけあります。 このデータセットには「中立性」カテゴリは提供されていません。 したがって、7 つのカテゴリの確率を予測するようにトレーニングされたモデルの出力層では、「中立性」の確率がゼロとして指定されました。

アジア人の顔の感情データセットからの画像の例39。

アジア人の顔の感情データセットは、AffectNet でトレーニングされたモデルを使用してテストされました。 画像は 256 × 256 ピクセルにサイズ変更され、顔を中心に合わせて 224 × 224 ピクセルにトリミングされました。 導出された平均精度は 61.99% で、AffectNet の精度よりわずかに高かった。 AffectNetの検証結果と同様に、「幸せ」カテゴリのスコアが最も高く、「恐怖」と「嫌悪」のスコアが最も低かった。 正規化された混同行列を図 12 に、特徴マップを図 13 に示します。AffectNet の特徴マップとは対照的に、識別位置は口と鼻の中心ではなく、右半分に集中していました。顔の。 これは、このモデルには実験室環境におけるアジア人の顔に対する一般化可能性が欠けていたことを示しています。 この実験は、AffectNet でトレーニングされたモデルが他のデータセットでは予測パフォーマンスに限界があることを示しています。

AffectNet でトレーニングされたモデルを使用してテストされた、アジア人の顔の感情データセットに対して生成された正規化された混同行列。

アジア人の顔の感情データセット用に作成された特徴マップ。

顔の表情を解釈するプロセスは、トレーニング段階ではモデルでは考慮されない文化的および個人的な違いにも左右されます。 図3および図4の特徴マップ。 図 9 と 10 は、提案されたモデルが口と鼻に重点を置き、目にはあまり焦点を当てていないことを示しています。 正しい FER 結果を得るには、しわや目などの微妙な特徴も重要な場合があります。 ただし、提案されたモデルは、口や鼻から遠く離れた特徴を捕捉しません。 アジア人の顔の感情データセットで得られたテスト結果は、識別領域が顔の右半分に偏っていることを示しています。 この発見は、実験室環境ではアジア人の顔に対するモデルの一般化可能性が限られていることを示しています。 AffectNet はさまざまな文化や人種の表現を含む多様なデータセットですが、依然として世界人口のごく一部に限定されています。 対照的に、RAF-DB には、AffectNet と同様の民族グループと設定が含まれています。 RAF-DB で得られた検証結果 (77.37%) は、アジア人の顔の感情データセットで得られた検証結果よりも優れています。 結果は、同様の民族グループを含むデータセットの場合、より多様でよりワイルドなデータセット (AffectNet) でトレーニングされたモデルの方が、より制約されたデータセット (この研究では RAF-DB) でより適切な予測を実行することを示しています。

この研究では、ニューラル ネットワーク モデルが顔の感情を識別する方法を学習する方法について説明します。 感情画像に表示される特徴は CNN で導出され、これらの感情特徴は主要な情報を含む顔のランドマークを特定するために視覚化されました。 調査結果に基づいて導き出された結論を以下に示します。

AffectNet と RAF-DB に対してクロスデータベース検証実験が実施されました。 RAF-DB が AffectNet でトレーニングされたモデルによって予測された場合、77.37% の精度が達成されました。 精度は 21 の結果と同等です。 AffectNet が RAF-DB でトレーニングされたモデルによって予測された場合、42.6% の精度が達成されました。 これらの結果は、AffectNet が顔の感情画像に関して RAF-DB よりも多様性を示すという事実と一致します。 さらに、転移学習により、RAF-DB の精度が 26.95% 向上します。 この発見は、事前にトレーニングされた重みに対して AffectNet 上で関連モデルをトレーニングすることにより、FER アルゴリズムのパフォーマンスを向上させるために転移学習を使用することの重要性を強調しています。

視覚化された感情特徴マップは、ニューラル ネットワークが FER の実行を学習する際に、口と鼻には主要な情報が含まれ、目と耳にはマイナーな情報が含まれていることを示しています。 このパラダイムは、人間が感情を観察する方法と似ています。

正しく分類された特徴マップ (ソフトマックス スコアが 90% を超える特徴マップ) と誤って分類された特徴マップを比較すると、ネットワーク モデルは大きな違いのない類似した特徴に焦点を当てていることがわかります。 この結果は、FER では顔の特徴的な領域近くの大きなパッチの観察が必要であることを示しています。

この研究で適用されたデータセットは、AffectNet (http://mohammadmahoor.com/affectnet/)、Real-World Affective Faces Database (RAF-DB; http://www.whdeng.cn) の次の Web サイトから許可を得て入手できます。 /raf/model1.html) およびアジア人の顔の感情データセット (http://mil.psy.ntu.edu.tw/ssnredb/logging.php?action=login)。 ただし、これらのデータの入手には制限が適用され、現在の研究ではライセンスに基づいて使用されているため、一般公開されていません。 ただし、データは、合理的な要求に応じて、AffectNet、RAF-DB、およびアジアの顔の感情データセットからの許可を得て、著者から入手できます。 トレーニングと分析のプロセスについては、研究方法論で説明します。

Vo、TH、Lee、GS、Yang、HJ、Kim、SH ピラミッドは、自然の中での表情認識のための超解像度を備えています。 IEEE Access 8、131988–132001 (2020)。

記事 Google Scholar

メラビアン、A. 非言語コミュニケーション (Aldine Transaction、2007)。

エクマン、P. ダーウィン、欺瞞、そして表情。 アン。 ニューヨークアカデミー。 科学。 1000、205–2 (Courtley & Jridi、2020) (2006)。

Farzaneh、AH および Qi、X. 2021 年のコンピューター ビジョンのアプリケーションに関する IEEE 冬季会議 (WACV) 2401–2410 (IEEE、2021) における深い注意深い中心喪失による野生での顔の表情認識。

アルヌアイム、AA et al. 多層パーセプトロン分類器を使用した音声感情を認識するための人間とコンピューターのインタラクション。 J. Healthc. 工学 2022、6005446 (2022)。

記事 PubMed PubMed Central Google Scholar

Kumari、HMLS データ拡張と転移学習とともに畳み込みニューラル ネットワークを使用した顔の表情認識 (2022)。

エクマン、P.、ダルグリーシュ、T.、パワー、M. 認知と感情のハンドブック (Wiley、1999)。

エクマン、P. 基本的な感情はありますか? サイコル。 改訂 99、550–553 (1992)。

論文 CAS PubMed Google Scholar

JA ラッセル 感情の周回モデル。 J.Pers. 社会サイコル。 39、1161–1178 (1980)。

記事 Google Scholar

グッドフェロー、IJ 他表現学習の課題: 神経情報処理における 3 つの機械学習コンテストに関するレポート (Lee, M.、hirose, A.、Hou, Z. & Kil, R 編) 117–124 (Springer、2013)。

マイスリ、M.ら。 自動感情認識: 現在の傾向と将来の展望。 計算します。 メソッド プログバイオメッド。 215、106646 (2022)。

記事 CAS Google Scholar

Li, S. & Deng, W. 深い表情認識: 調査。 IEEEトランス。 影響する。 計算します。 13、1195–1215 (2022)。

記事 Google Scholar

カナル、FZ 他顔の感情認識技術に関する調査: 最先端の文献レビュー。 情報科学。 582、593–617 (2022)。

記事 Google Scholar

He, K.、Zhang, X.、Ren, S. & Sun, J. コンピューター ビジョンとパターン認識 (CVPR) に関する 2016 年の IEEE 会議における画像認識のための深層残差学習 (IEEE、2016)。

Mollahosseini, A.、Hasani, B.、Mahoor, MH AffectNet: 世に出ている顔の表情、感情表現、覚醒コンピューティングのデータベース。 IEEEトランス。 影響する。 計算します。 10、18–31 (2019)。

記事 Google Scholar

Schoneveld, L. & Othmani, A. 2021 年の画像処理に関する IEEE 国際会議 (ICIP) 2339–2342 (IEEE、2021) での表情認識のための一般的な深部特徴抽出に向けて。

Rajan, V.、Brutti, A. & Cavallaro, A. マルチモーダル感情認識では、自己注意よりも交差注意のほうが好ましいですか? ICASSP 2022–2022 音響、音声および信号処理に関する IEEE 国際会議 (ICASSP) 4693–4697 (IEEE、2022)。

Zhuang, X.、Liu, F.、Hou, J.、Hao, J.、Cai, X. ビデオ感情検出のためのトランスフォーマーベースのインタラクティブなマルチモーダル アテンション ネットワーク。 神経プロセス。 レット。 54、1943 ~ 1960 年 (2022)。

記事 Google Scholar

Zhang, Y.、Wang, C.、Ling, X. & Deng, W. 「全員から学ぶ: コンピューター サイエンスの講義ノート」の「ノイズの多いラベルの表情認識のための注意の一貫性の消去」 (Avidan, S.、 Brostow, G. 編) 、Cissé、M.、Farinella、GM & Hassner T.) 418–434 (Springer、2022)。

Savchenko, AV、Savchenko, LV & Makarov, I. 単一の表情認識ニューラル ネットワークに基づいて感情とオンライン学習への参加を分類します。 IEEEトランス。 影響する。 計算します。 13、2132–2143 (2022)。

記事 Google Scholar

Fan , Y. , Lam , JCK & Li , VOK 人工ニューラル ネットワークと機械学習における表情認識のためのマルチリージョン アンサンブル畳み込みニューラル ネットワーク—ICANN 2018 (編集 Kůrková , V. 、Manolopoulos , Y. 、Hammer , B . 、Iliadis、L. & Maglogiannis、I. ) 84–94 (Springer International Publishing、2018)。

Wang, Z.、Zeng, F.、Liu, S. & Zeng, B. OAENet: 正確な表情認識のための指向性注意アンサンブル。 パターン認識。 112、107694 (2021)。

記事 Google Scholar

Schoneveld, L.、Othmani, A. & Abdelkawy, H. 視聴覚感情認識のための深層学習の最近の進歩を活用。 パターン認識。 レット。 146、1–7 (2021)。

記事 ADS Google Scholar

Hwooi、SKW、Othmani、A. & Sabri、AQM 価性覚醒空間における表情画像からの継続的な感情予測のための深層学習ベースのアプローチ。 IEEE Access 10、96053–96065 (2022)。

記事 Google Scholar

Sun, L.、Lian, Z.、Tao, J.、Liu, B. & Niu, M. リカレント ニューラル ネットワークと自己注意メカニズムを使用したマルチモーダル連続次元感情認識 (マルチモーダル感情分析に関する第 1 回国際会議議事録)現実のメディアチャレンジとワークショップ27–34(ACM、2020)で。

Allognon, SOC、de S. Britto, A. & Koerich, AL 2020 年ニューラル ネットワーク国際共同会議 (IJCNN) 1-8 (IEEE、2020) における深層畳み込みオートエンコーダーとサポート ベクター リグレッサーによる連続感情認識。

Huang, C. 2017 IEEE MIT 学部研究技術会議 (URTC) 1–4 での感情認識のための畳み込みニューラル ネットワークの組み合わせ (IEEE、2017)。

マオ、J.ら。 POSTER V2: よりシンプルかつ強力な表情認識ネットワーク。 arXiv プレプリント arXiv:2301.12149 (2023)。

Le、N.ら。 2023 年のコンピューター ビジョンのアプリケーションに関する IEEE/CVF 冬季会議 (WACV) 6088–6097 (IEEE、2023) における表情認識のための不確実性認識ラベル分布学習。

Singh、S. & Prasad、SVAV 顔認識の技術と課題: 批判的なレビュー。 手順計算します。 科学。 143、536–543 (2018)。

記事 Google Scholar

Kortli、Y.、Jridi、M.、Falou、AA & Atri、M. 顔認識システム: 調査。 センサー (スイス、バーゼル) 20, 342 (2020)。

論文 ADS PubMed Google Scholar

Srizi, MS & Bati, S. 顔表情認識のための既製 CNN の評価、ネットワークとシステムの講義ノート (Arai, K. 編) 466–473 (Springer、2022)。

Chen, D.、Wen, G.、Li, H.、Chen, R. & Li, C. 野外での表情認識のためのマルチリレーション認識ネットワーク。 IEEEトランス。 回路システムビデオテクノロジー。 https://doi.org/10.1109/tcsvt.2023.3234312 (2023)。

記事 Google Scholar

Heidari, N. & Iosifidis, A. 野生での顔の表情認識のための多様な特徴表現を学習します。 arXiv プレプリント arXiv:2210.09381 (2022)。

Beaudry, O.、Roy-Charland, A.、Perron, M.、Cormier, I. & Tapp, R. 感情的な表情を認識する特徴処理。 認知。 エモット。 28、416–432 (2013)。

論文 PubMed Google Scholar

Bhattacharyya、A. et al. 赤外線熱画像から人間の表情を分類するための深層学習モデル。 科学。 議員 11、20696 (2021)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Alp, N. & Ozkan, H. 動的顔認識中の統合プロセスの神経相関。 科学。 議員第 12 号、118 (2022)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Siddiqi、MH リアルタイムの YouTube ベースのデータセットを使用した、正確かつ堅牢な表情認識システム。 応用知性。 48、2912–2929 (2018)。

記事 Google Scholar

Li, S.、Deng、WH、Du、JP 2017 年のコンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議における、野生環境での表現認識のための信頼できるクラウドソーシングと深い局所性保存学習 (IEEE、2017)。

Hu, J.、Shen, L. & Sun, G. コンピューター ビジョンとパターン認識に関する 2018 IEEE/CVF カンファレンスのスクイーズアンド励起ネットワーク 7132–7141 (IEEE、2018)。

Chen, CC, Cho, SL & Tseng, RY 中国の感情と関連する精神生理学的データの台湾コーパス - プロのパフォーマーの顔の表情に関する行動評価基準。 顎。 J.サイコル。 55、439–454 (2013)。

Google スカラー

リファレンスをダウンロードする

この研究は、国家科学技術評議会から一部資金提供を受けました (プロジェクト番号 MOST 111-2635-E-242-001 -)。

国立高雄科学技術大学機械工学科、高雄、台湾

Zi-Yu Huang、Chia-Chiang Chiang、Hsin-Lung Chung

台湾、台北、国立政治大学応用物理大学院

ジェン・ハオ・チェン & シュー・チュアン・スー

台湾・高雄市福陰大学労働安全衛生学部

イーチアン・チェン

台湾・桃園市新生医療管理短期大学看護学科

蔡玉平

台湾、台北、国立政治大学コンピューターサイエンス学部

シュー・テン・スー

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

Z.-Y. 黄さんは原稿執筆に貢献した。 C.-C. 蒋介石はこの論文の監督と完成に貢献した。 J.-H. Chen はすべての計算を実行し、筆頭著者として同様に貢献しました。 Y.-C. チェンは研究の計画と原稿の編集に貢献しました。 H.-L. チョン氏は原稿の編集に貢献した。 Y.-PC は感情分類分野を評価し、文献レビューに貢献しました。 H.-CH は研究を設計し、概念的なガイダンスを提供しました。 著者全員が原稿について議論し、レビューしました。

Yi-Chian Chen または Hsiu-Chuan Hsu への通信。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

ZY. Huang、CC. Chiang、JH. Chen 他。 顔の感情認識のためのコンピュータビジョンに関する研究。 Sci Rep 13、8425 (2023)。 https://doi.org/10.1038/s41598-023-35446-4

引用をダウンロード

受信日: 2022 年 12 月 8 日

受理日: 2023 年 5 月 18 日

公開日: 2023 年 5 月 24 日

DOI: https://doi.org/10.1038/s41598-023-35446-4

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。