まばたき
ホームページホームページ > ニュース > まばたき

まばたき

Jun 05, 2023

Scientific Reports volume 13、記事番号: 7961 (2023) この記事を引用

302 アクセス

メトリクスの詳細

Blink-To-Speak などの目を使ったコミュニケーション言語は、運動ニューロン障害を持つ患者のニーズや感情を表現する上で重要な役割を果たします。 発明された視線ベースの追跡システムのほとんどは複雑で、低所得国では手頃な価格ではありません。 Blink-To-Live は、言語障害のある患者向けに改良された Blink-To-Speak 言語とコンピュータ ビジョンに基づいた視線追跡システムです。 携帯電話のカメラは、リアルタイムのビデオ フレームをコンピュータ ビジョン モジュールに送信して、顔のランドマークの検出、目の識別、追跡を行うことで患者の目を追跡します。 Blink-To-Live のアイベースのコミュニケーション言語には、Left、Right、Up、Blink の 4 つのキー アルファベットが定義されています。 これらの目のジェスチャーは、3 つの目の動きの状態のシーケンスによって表現される 60 を超える日常生活のコマンドをエンコードします。 アイジェスチャーでエンコードされた文が生成されると、翻訳モジュールが患者の母語のフレーズを電話画面に表示し、合成音声を聞くことができます。 Blink-To-Live システムのプロトタイプは、異なる人口統計学的特性を持つ通常のケースを使用して評価されます。 他のセンサーベースの視線追跡システムとは異なり、Blink-To-Live はシンプル、柔軟性、コスト効率が高く、特定のソフトウェアやハードウェア要件に依存しません。 ソフトウェアとそのソースは、GitHub リポジトリ (https://github.com/ZW01f/Blink-To-Live) から入手できます。

筋萎縮性側索硬化症 (ALS) および原発性側索硬化症 (PLS) は、脳および脊髄細胞に影響を及ぼし、徐々に筋肉制御の喪失を引き起こし、言語障害の症状を引き起こす進行性のニューロン疾患です。 患者は、病気の後期でも目のジェスチャーを通じて介護者とコミュニケーションをとることができます1、2。 アイジェスチャーを音声に変換することで、文字や数字を備えたコントロールパネル、タッチや視線を感知するスクリーン、視線追跡システム、その結果として変更されたマウスカーソルに至るまで、さまざまなデザインや使いやすさのコンセプトを備えた多数の拡張/代替コミュニケーション (AAC) デバイスが発明されました。さまざまなコンピュータ アプリケーションを制御するための技術が導入されています。 市販の視線感知キーボードは非常に高価です。 たとえば、Tobii Dyanvox3 のコストは、さまざまな構成モデルに応じて 5,000 ドルから 10,000 ドルの範囲です。 Eye Transfer4 (E-tran) ボードは、代替の低コスト ソリューション (260 ドル) で、介護者が文字が印刷された透明なプラスチック ボードを持ち、ボード上の患者の目のジェスチャーを観察します。 頭部装着型視線トラッカー 5 では、頭部の動き中のカメラと患者の目に応じて、静的な調整された設定が必要でした。

思考と意図は、言語障害を持つ患者にとってのもう 1 つのコミュニケーション アプローチです。 ブレイン コンピューター インターフェイス (BCI) は、デジタル キーボード 6 で文字を選択して単語を入力したり、Web ページの閲覧 7 や画像のペイント 8 などの複雑なタスクを実行したりするなど、外部デバイスを制御するために脳活動 (EEG 信号など) を利用します。 一部の脳スペラーは異なる通信速度を持っています 9,10 が、言語モデルと深層学習を組み合わせることで最近増加しました 11,12。 調査研究によると、ほとんどの ALS/PLS 患者は、周囲の世界とのコミュニケーションを開始するために視線追跡に基づくテクノロジーの使用を良好に受け入れており 13、14、15、患者の視線の追跡は、次のような他の信号を追跡または検出するよりもはるかに簡単です。脳波/心電図16、17。

言語障害のある患者は、自然な会話能力を失います18。 したがって、頭、顔のジェスチャー、目、脳信号などの利用可能な動く器官を利用する、多くの修正された話し言葉が提案されています 19,20。 目ベースのコミュニケーション言語は、コミュニケーション音声を簡単かつ効率的に合成するために、さまざまな目のジェスチャーをエンコードするさまざまな形式で導入されています21、22、23。 モールス符号は、短いまばたきと長いまばたきを点とダッシュのシーケンスとして符号化するために提案されたアプローチの 1 つであり、アルファベットや文はそれに応じて構築されます 22,23。 Blink-To-Speak は、8 つの目のジェスチャ (シャット、瞬き、左、右、上、下、ウィンク、ロール) に応じた 8 つのアルファベットを備えたもう 1 つの提案された目の言語です。 日常生活のほとんどのフレーズ (つまり、50 のコマンド) は、これらの定義されたアイ アルファベットを使用してさまざまな母国語のオンライン ブックにエンコードされ、患者や介護者にその言語を簡単かつ効率的に使用する方法を訓練し、教えることができます24。 言語障害向けに提案されているアイランゲージのほとんどは、特定のセンサー(赤外線付き眼鏡、視線キーボード、ヘッドマウントアイトラッカーなど)を備えた特殊なハードウェアデバイスに実装されており、コミュニケーションプロセスが複雑になり、患者にとっての使いやすさやアクセシビリティが低下します。介護者14、25、26。 また、これらのデバイスの一部は高価であり、エジプトなどの低所得国では手頃な価格ではありません。

さらに、以前に提案された目の言語では瞬きが唯一考慮される状態であり、より異なるフレーズや日常生活のコマンドをエンコードできる他の目のジェスチャ (つまり、左、上、右など) が無視されるため、アプリケーションの使いやすさが制限される可能性があります 14 、22、23。 Blink-To-Speak アイランゲージには他のアイベースのコミュニケーション言語よりも多くのアルファベットがあり、より多くのフレーズをエンコードできますが、介護者は患者の目を観察することによってのみ患者の意図した発話を理解することができ、患者/介護者はマニュアル本を通じて訓練されます。言語を話す/理解すること。 また、この本の中で定義されたコミュニケーション文章には、さまざまな目のジェスチャーが長く続く場合があり、これにはより多くのトレーニング時間が必要であり、患者の目を疲れさせる可能性があります。

この論文では、言語障害のある患者向けに改良された Blink-To-Speak 言語に基づく視線追跡システムである Blink-To-Live を提案しました。 サポートされているカメラを備えたハンドヘルド モバイル デバイスは、リアルタイムのビデオ フレームをキャプチャし、顔のランドマークの検出、目の識別、追跡のためにコンピューター ビジョン モジュールに送信します。 Blink-To-Live 通信システムには、左、右、上、まばたきの 4 つの目の動きがあります。 これらの目のジェスチャーは、3 つの目の動きのシーケンスによって表現される 60 以上の日常生活コマンドをコード化しています。 音声生成および翻訳モジュールは、認識された目の動きを対応するフレーズにデコードし、患者の母国語でモバイル画面に表示し、それに応じて合成音声を聞くことができます。 他のセンサーベースの視線追跡システムとは異なり、Blink-To-Live はシンプル、柔軟性、コスト効率が高く、特定のソフトウェアやハードウェア要件に依存しません。 また、オリジナルの Blink-To-Speak と比較して、提案されたアイベースのコミュニケーション言語には、短い目の動きでより多くのコマンドが含まれており、患者がより短いトレーニング時間でより速く話すための使いやすさが向上しています。

私たちの論文は次のように構成されています。セクション「関連研究」では、これまでに関連した研究の概要を示し、セクション「材料と方法」では、内部モジュールとサブモジュールを含む提案されたシステム アーキテクチャの全体像を示します。詳細については、以下で説明します。次のサブセクションでは、「実験結果」セクションでは、さまざまなユーザー インターフェイス、患者/介護者に提供される基本サービス、さまざまな使いやすさとアクセシビリティの問題など、提案する通信システムの主な実験結果を示します。「結論」セクションではこの論文を締めくくり、将来のいくつかの点を強調します。 Blink-To-Live システムを改善するための洞察。

アイトラッキング技術は、人々が生活環境とどのように関わるかをデジタル化するために、認知、心理学、コンピューター、医学などの多くの科学で利用されています27,28。 人間の目を追跡することは、そのさまざまな動きを記録することを意味し、目ベースの通信やコンピュータ環境との相互作用など、多くの普及したアプリケーションにとって不可欠です。 3 種類の視線追跡アプローチが以前に紹介されました (図 1 を参照)。1 つは、目の位置を追跡および記録する赤外線センサーを備えた特殊なレンズや眼鏡など、目に直接取り付けられるデバイスに依存します。 2 番目のアプローチは、目を閉じているときでも暗闇の中で検出できる電界源として目をターゲットにし、人間の目の周りにいくつかの電極を配置して電位を測定します。このアプローチの例は眼電図 (EOG) 技術です22。 、27。 前述の 2 つのアプローチは赤外線や電極などのセンサーに依存しているため、センサーベースの視線追跡技術という用語に分類できます。 他の視線追跡方法は、人間の目に直接接触したり、追加のハードウェア センサーを使用したりすることなく、カメラによってキャプチャされたビデオ フレーム内の人間の目をリアルタイムで検出および追跡するコンピューター ビジョン技術に依存しています。

言語障害を持つ患者のための視線追跡システム。

提案されている人間とコンピュータの対話方法の 1 つは、患者の目の周囲にほぼ 5 つの電極を配置して、患者のまばたきや動きを検出し、カーソルやさまざまなデスクトップ アプリケーションを制御するというものです34,35。目を使って目的の文字を見て、事前に定義された時間枠 (つまり 1 秒) のまばたきや動きに基づいて選択します。 また、筋電図検査システムは顔の筋肉の信号を検出し、それに応じてマウス カーソルとコンピュータ アプリケーションを制御できます36。 目のジェスチャーと顔の筋肉からの信号は、言語障害を持つ人々のコミュニケーションやカーソル制御をサポートするアプリケーションの信頼性を高めるために組み込まれています。 これら 2 つの技術を組み合わせると精度は高くなりますが、依然として通信速度が遅く、コストが高いという問題があります22。 直接アイコンタクトアプローチは、モールス信号を使用してまばたきを一連のアルファベットに変換する赤外線センサーを備えた眼鏡などのハードウェアデバイスの設計をターゲットにしており、アルファベットが LCD 画面 23 に表示されたり、合成されたフレーズが携帯電話に表示されたりするバリエーションがあります。電話画面22. EyeLive37 は、赤外線センサーによる目の反射の測定に基づいた別の視線追跡システムです。 このシステムにはキーボードを備えたユーザー インターフェイスがあり、患者は目のジェスチャーを使用して目的の文字を選択できます。 赤外線センサーは目からの反射光を増やすことでアイジェスチャーの検出を容易にしますが、屋外での使用では太陽光と干渉するなどの制限があり、赤外線センサーに対する目の相対的な位置が追跡性能に影響します。 直接アイコンタクトのアプローチでは、不正確なセンサー測定に従って信頼性と堅牢性が低下するアイトラッキング用の外部ハードウェアデバイスを使用するという追加コストがかかります。

人間の目を検出して追跡するために、キャプチャされた画像内の最初の目の 6 つの主成分を検出する主成分分析など、いくつかの機械学習技術が導入されています。 目の瞳孔の位置は、人工ニューラル ネットワーク モデルを使用して分類されます38。 このシステムには、ヘッドマウント カメラや眼鏡の着用など、通信プロセスが複雑になる特殊なハードウェア構成が必要でした。 適応線形回帰 (ALR39)、K 最近傍法 (KNN40)、ランダム フォレスト (RF41) などの一部の機械学習モデルは、目の方向、視線角度、動きを予測するために使用されますが、トレーニング サンプルが不十分なために予測精度が不正確になるという問題があります。パラメータ設定、ノイズのある画像、または複雑な特徴抽出プロセス31。 また、サポート ベクター マシン (SVM) は、アクティブな外観モデルの特性を変更することで目領域が検出された後、5 つの目の方向を分類するために使用されます42。 多層アーキテクチャを備えた深層学習畳み込みニューラル ネットワーク (CNN) は、既知の目の状態を予測ラベルとして持つ多数のサンプルで CNN をトレーニングすることに基づいて、さまざまな目のジェスチャーを予測するために使用されます。これにより、優れたパフォーマンスを達成できますが、大量のパフォーマンスが必要になります。トレーニング サンプルの数、長いトレーニング時間、それに応じてモデルのパラメーターを調整します43。 アイトラッキング テクノロジは、.NET でデータをクエリするための一般的なテクノロジである統合言語クエリ (LINQ) のクエリ構文とメソッド構文を開発者がどのように理解するかを調査することで、理解に影響を与える要因を理解するなど、通信以外のタスクに適用されます。 C# や VB.NET44 などのプログラミング言語。 また、視線追跡技術は、VR 感覚をレンダリングするために仮想現実 (VR) ヘッドマウント ディスプレイと統合されており、環境とのユーザー インタラクションを支援 45 したり、視覚スクリーニング 46 をサポートしたりします。

Blink-To-Live は、ALS や PLS などの運動ニューロン障害を持つ患者のための、コンピューター ビジョン技術に基づくモバイル アプリケーションです。 これらの患者は徐々に言語障害の症状を発症します。 麻痺の最終段階では、目のジェスチャーがコミュニケーションを開始する唯一の方法です。 Blink-To-Live コミュニケーション システムは、左、右、上、瞬きの 4 つの目のジェスチャに依存しており (表 1)、表 2 に示されているような 60 を超える日常生活のコミュニケーション文をエンコードするための言語の主要なアルファベットを定義しています。そして3.

図 2 に示すように、Blink-To-Live には 2 つの基本的なシステム コンポーネントがあります。1 つは Google flutter47 フレームワークによって開発されたモバイル アプリケーションで、もう 1 つはビデオ フレーム画像の分析と処理のためのバックエンド Python モジュールです。 Blink-To-Live システムとの患者のやり取りは、介護者が電話のカメラを開いて患者の目のジェスチャーを追跡することから始まります。 ビデオ フレームがリアルタイムで正しくキャプチャされると、コンピュータ ビジョン モジュールに自動的に送信され、患者の眼球運動状態が検出および追跡されます。

Blink-To-Live 通信システム アーキテクチャ。

最初のモジュールは顔のランドマーク検出で、顔検出と顔のランドマーク予測という 2 つのサブモジュールがあります。 このモジュールは、患者の顔を検出し、目、口、鼻などのさまざまな顔構造を表す 68 の顔座標の位置を抽出することを目的としています。次のモジュールは患者の目を検出し、Blink-To-Live に従ってその動きを追跡します。 4 つのキーのアルファベット: 左、右、上、点滅。 患者の会話は、3 つの眼球運動状態の組み合わせを使用してエンコードされた事前定義された文の辞書に従って生成されます。 文が合成されると、翻訳モジュールはアラビア語、ドイツ語などの患者の母国語でフレーズを表示します。また、テキスト読み上げモジュールは、患者が簡単かつ効率的にコミュニケーションするのに役立つ、対応する本物のような音声を生成します。 各モジュールの詳細な実装については、次のセクションで説明します。

Blink-To-Live の目ベースのコミュニケーション言語には、4 つの目のアルファベット (つまり、Blink (B)、Left (L)、Right (R)、および Up (U)) があります。 私たちは、システムによって認識された 4 つの目の動きに従って、以前に提案された Blink-To-Speak アイランゲージを修正し、より少ない一連の目のジェスチャーと遷移でより多くのステートメントを表現することで患者のコミュニケーションプロセスを簡素化しました。 Blink-To-Live の目ベースの通信言語では、通信される各文は 3 つの目の状態のシーケンスとして表現され、各状態は 4 つの状態 (B、L、R、U) のいずれかになります。 定義された 4 つの状態により、ALS/PLS 患者に対して正確に 64 の日常生活でコミュニケーションされるフレーズが生成されます (表 2 および 3)。 この構成は数学的に次のように定義できます。 \(n\) 個の認識された目の状態と伝達された文のグループがある場合、各文は \(k\) 個の単語 (\(k\) 個の状態のシーケンス) で表現されます。一意に伝達される文の総数は \({n}^{k}\) になります。 認識される目の状態 \(n\) と表現される単語 \(k\) の数を増やすことにより、修正された Blink-To-Speak 言語により多くのステートメントが追加されます。 \(n=4\)、\(k=3\) の場合、定義されたステートメントの総数は 64 に等しく、ALS/PLS 患者に必要な日常生活のコミュニケーション音声のほとんどを、より少ないトレーニング時間で表現するのに十分であることがわかりました。 同じ目の状態 (つまり、3 つの状態すべてが左、右、上、まばたき) の間で遷移はなく、食事、水、トイレ、私は大丈夫などの基本的な患者のニーズに当てられます。トランジションの少ないコマンドは、おむつ交換、親戚への電話、薬の服用などの最も重要なコマンド専用です。通常、同じ目の状態のシーケンスは、患者によってより早く表現され、訓練にかかる時間も短くなります。ある目の状態から別の目の状態に遷移する目の状態。 提案されている Blink-To-Live の目ベースのコミュニケーション言語は、元の Blink-To-Speak の本で定義されている長い一連の目のジェスチャーやトランジションによって患者の目が疲れ果てる可能性があるため、よりシンプルで、より柔軟で、使いやすいものになります。 表 4 は、Blink-To-Speak24 システムと Blink-To-Live システムの主な違いを示しています。

顔のランドマークは、鼻、目、眉毛、口などの顔の重要な部分を検出します。私たちのシステムの最も重要な顔の構造は患者の目です。 私たちが提案するフレームワークの顔ランドマーク モジュールには、ビデオ フレームから収集された画像から顔を検出することと、それに応じて顔の関心領域上の重要な顔構造の位置を特定することという 2 つの基本的なステップがあります。

顔検出は、線形 SVM を使用した方向性勾配のヒストグラム (HOG + SVM) と呼ばれる事前トレーニング済みモデルを使用して実現されます。 人間の顔の HOG 記述子は、顔画像を小さなブロックに分割することによって構築でき、ブロックごとに勾配 (つまり、x 方向と y 方向に関するピクセル値の小さな変化) が計算されます。 次に、ヒストグラムがブロックごとに個別に生成されます。 最後に、勾配ベクトルは正規化され、単一の HOG 特徴記述子に結合され、顔/非顔オブジェクトの分類のために線形 SVM に供給されます 48。

顔領域が検出されたとすると、次のステップでは、口、左右の眉毛、左右の目、鼻、顎の位置を特定してラベルを付けることにより、顔のランドマークを検出します。 x 座標と y 座標に関して手動でラベル付けされた一連の主要な顔構造は、ピクセルの強度値と、顔のランドマークのペアに対応するピクセル値の距離の事前確率とともに、回帰ツリーのアンサンブル モデルに入力されます49顔のランドマーク検出器のモデルをトレーニングします。 モデルは dlib ライブラリ 50 に実装され、iBUG 300-W データセット 51 でトレーニングされ、68 個の顔のランドマーク座標の位置を x 値と y 値で推定します。 私たちが提案したシステムは、dlib 事前学習モデルを使用して、ビデオ フレームから抽出されたリアルタイム画像上の顔のランドマークを検出しました (図 3 を参照)。

顔のランドマーク検出モジュール。ドットは、口、左右の眉毛、鼻などのさまざまな顔の構造の 68 個の座標を表します。

患者の目は、顔のランドマーク モジュールを使用して検出されます。このモジュールは、68 (x, y) 座標の空間内で左右の目の指標を特定します。 患者の画像に対応する読み取りフレームごとに、作成された同じ寸法のブラックマスク上に描かれた 6 つの座標によって各眼が検出されます。 作成された黒いマスク上の唯一の白い領域は目を囲み、膨張形態学的操作を使用して拡大されます。 目は、元の画像上で作成されたマスクとのビットごとの論理積演算によってセグメント化されます。 すべてゼロのピクセル値は 255 に変換され、マスク上に残る唯一の黒い領域である眼球の位置が特定されます。 結果として得られるアイマスクはグレースケールに変換され、目から眼球をセグメント化し、その中心を特定するための画像を準備します。 固定しきい値を使用してバイナリ マスクを作成し、眼球を含む最大の輪郭を見つけ、それに応じてセグメント化しました。 眼球が検出されると、その位置 (x および y 座標による) が計算され、左 (1)、右 (2)、上 (3) の 3 つの方向にマッピングされた 3 つの値として返されます。 アイダウン状態は、まばたき状態と競合するため、このバージョンの Blink-To-Live アプリケーションでは検出されません。

各目は、顔のランドマーク モジュールを使用して 6 つの座標によって検出され、目の高さと幅の関係は、次の方程式で計算される目のアスペクト比 EAR52,53 と呼ばれる比率によってエンコードできます。

ここで、p1、p2、p3 などは、図 4 に示すように目のランドマークの座標です。

左右の目の 6 つの座標。目の縦横比 (EAR) の計算に使用されます。

\(EAR\) は、目が開いているときは常に一定であり、まばたきするときは近似値が 0 になります。 したがって、この比率により、患者がまばたきをしているかどうかを判断できます。 特定のしきい値 \(t\) が計算されます (つまり、このアプリケーションでは 0.2)。 EAR 値が 0.2 未満減少し、その後 0.2 を超えて増加すると、1 回のまばたきが検出され、発生したまばたきの数をカウントできます。 次の式は、 \(EAR\) と \(t\) のしきい値の比較に基づいて、目の開閉状態がどのように検出されるかを説明します。

通常のまばたきは 100 ~ 400 ミリ秒続きますが、これは意図したまばたき (つまり 800 ミリ秒続く) に比べて非常に高速です。 我々は、53 で説明したアプローチを使用して、通常のまばたきと患者のまばたきを区別しました。これは、Blink-To-Live の目ベースの言語でアルファベットとして使用されます。 この解決策は、事前に定義されたビデオ フレーム数 (つまり 13 フレーム) の \(EAR\) 値を検査し、\(EAR\) がまだ 0.2 未満である場合、それが意図された言語の点滅であることを意味します。 検査フレーム数が 13 フレーム未満の場合、まばたきは非常に速く、カメラが 1 秒あたり 25 フレームをキャプチャしていることを考慮すると、通常のまばたきである可能性があります。

前述のモジュールから、4 つの目のアルファベット (まばたき (B)、左 (L)、右 (R)、および上 (U)) を検出し、視線追跡リストに登録できます。 視線追跡リストは、さまざまな目で認識された状態を保存し、表 2 および 3 に従って、対応するエンコードされたフレーズを生成します。Python ライブラリの翻訳を使用して、さまざまな患者に応じて、これらのフレーズをアラビア語、ドイツ語などのさまざまな母国語に翻訳します。文化と国籍54. さらに、生成されたフレーズ テキストは、Microsoft Azure55 によって開発された Text-to-Speech モジュールを使用して、本物のような合成音声に変換されます。 Text-to-Speech 用の Microsoft ライブラリのローカル レジストリ キーを使用して、任意の Python コードに直接インポートすることもできます。

Blink-To-live は、言語障害を持つ患者が家族や介護者とコミュニケーションをとるのを支援するフラッター ベースのモバイル アプリケーションです。 携帯電話のカメラが開き、ビデオ フレームのストリームがキャプチャされ、FastAPI56 を使用して Web ソケット経由でバックエンド モデルに送信されます。 クライアント (モバイル アプリケーション) とサーバー (バックエンド モデル) 間の双方向通信チャネルは、すべての HTTP プロトコル層を経由せずにリアルタイムで画像を迅速に送信する FastAPI を備えた Web ソケットを使用して確立されます。 Web ソケットは、バックエンド モデルで処理されると予想される数よりも多くのビデオ フレームを受信することによって発生するバックプレッシャーの問題を効率的に処理します。 また、この問題は、モバイル アプリケーションから新しいフレームを受信しながら、モデルが既存のフレームの処理と顔/目の検出モジュールの実行、目の動きの予測、認識された状態の通信音声への変換で多忙なときに発生しました。 この問題を解決するために、サイズが制限されたキューまたはバッファが作成されます。 キューがいっぱいになると、以前に保存されたものから詳細を復元または仮想的に作成できるため、アプリケーションの効率に影響を与えることなく一部のビデオ フレームがドロップされます。 受信と処理という 2 つのメソッドが同時に実装され、並行して実行されます。 Receive メソッドは、生のバイトでエンコードされた新しくキャプチャされたフレームを読み取るために使用されます。 対照的に、この処理方法では、以前に受信したフレームで顔/目を検出し、目のジェスチャーを追跡し、翻訳された目の音声をモバイル アプリケーション画面に送り返します。

この論文では、言語障害のある患者が簡単かつ効率的にコミュニケーションできるようにするために、Blink-To-Live と呼ばれるモバイル アプリケーションを開発しました。 患者の介護者は、携帯電話のカメラを開いて、Blink-To-Live の 4 つのキー アルファベット (左、右、上、瞬き) に従って患者の目の動きをキャプチャおよび追跡するだけで済みます。 患者の会話は、3 つの眼球運動状態の組み合わせを使用してエンコードされた事前定義された文の辞書に従って生成されます。 文が合成されると、翻訳モジュールが患者の母国語でフレーズを表示し、それに応じてテキスト読み上げモジュールが対応する本物のような音声を生成します。 図4は、ユーザーの登録から目の動きをエンコードしたフレーズを表示する画面までのさまざまなアプリケーション画面を示しています。

図 5 では、ユーザーは電話番号と電子メールを使用して登録できます。 登録プロセスによっては、患者の国籍、文化などのカスタマイズされた情報が推測される可能性があります。 次のアプリケーション画面 (図 5) は、カメラが開かれると、アプリケーションが目の動きの追跡を開始して画面上に表示し、すべての目のジェスチャが認識された後、表に従って対応する合成フレーズを表示することを示しています。 2と3に示すように、アプリケーション画面に表示され、その生き生きとしたスピーチが聞こえます。

Blink-To-Live モバイル アプリケーションのユーザー インターフェイス (つまり、患者の登録および視線追跡インターフェイス) と、「私は大丈夫ではありません」という 1 つのフレーズが表示されます。

また、このアプリケーションには、アニメーション化されたグラフを備えた学習モジュールがあり、患者と介護者が Blink-To-Live の 4 つの目の動きのアルファベットと、対応する目ベースで生成される音声について詳しく学ぶのに役立ち、動機付けられます。 さらに、生成された音声は、患者の登録情報に応じて異なる母国語に翻訳することができます(図6および7を参照)。

Blink-To-Live モバイル アプリケーションの基本サービス: アイランゲージブックを読む、目を検出する、目の動きを患者の母語のフレーズに翻訳する。

Blink-To-Live モバイル アプリケーションの患者プロファイルのユーザー インターフェイス デザイン。

図 8 は、Blink-To-Live モバイル アプリケーションと患者の間の対話を一連のメッセージ交換として示しています。 患者の介護者によってユーザー プロファイルが作成されると、そのログイン情報を使用して Blink-To-Live アプリケーションを起動できます。 麻痺の段階に応じて、患者またはその介護者は電話カメラを開くことができ、アプリケーションが患者の目を追跡し、認識された各動きを視線追跡リストに記録し始めます。 認識された 3 つの目の動きごとに、表 2 および 3 によってエンコードされた Blink-To-Live 辞書を使用して、対応するフレーズに翻訳されます。エンコードされたフレーズがアプリケーション画面に表示され、対応する音声が聞こえます。 辞書は 3 つの目の状態を使用してエンコードされ、長時間の目の動きによって患者の目を疲れさせることなくコミュニケーションを簡素化しました。 患者のエンコードされた音声が画面に表示された後、視線追跡リストがクリアされて、3 つの目のジェスチャの新しいシーケンスの記録が開始されます。 患者が誤って Blink-To-Live システムで認識されない誤った目の動きをしたとします。 その場合、アプリケーションの画面には認識されていない状態は表示されず、患者には正しい状態を表現するために 5 秒の間隔が割り当てられます。

患者と Blink-To-Live モバイル アプリケーション間の対話を説明するシーケンス図。

通信速度、コスト、介護者の依存関係、通信を開始するための特別なハードウェア デバイスなどの基準に従って、さまざまな視線追跡アプローチが比較されます。 Blink-To-Live は、コンピューター ビジョン ベースの視線追跡アプローチと呼ばれる間接的なアイコンタクト追跡アプローチに従います。 この比較では、ALS 患者のコミュニケーションに対するさまざまな視線追跡アプローチを評価するさまざまな研究から報告された結果が考慮されました 15、19、35、57、58。 Blink-To-Live システムは、患者との通信を開始するために特別なハードウェア デバイスやセンサーに依存しません。 患者/介護者は、サポートされているカメラを備えた携帯電話を使用して、患者の目を追跡し、意図した音声を生成し、それを患者の母国語に翻訳できます。 眼鏡、電極、視線検知スクリーンは必要ありません。 したがって、私たちのアプリケーションは、他の提案されたアプリケーションと比較して最もコストが低くなります。 Blink-To-Live では、大規模なコンピュータ ビジョン バックエンド モジュールがリアルタイムでビデオ フレームを処理し、その結果をモバイル アプリケーションに送り返すため、わずかな遅延が発生します。そのため、直接アイコンタクト追跡システムと比較すると通信速度が遅くなります。 (表 5 を参照)。

すべての実験は、関連するガイドラインと規制に従って実行されました。 また、エジプトのマンスーラ大学コンピュータ情報学部科学研究倫理委員会によっても承認されました。 また、オンラインのオープンアクセス出版物で情報/画像を公開するためのインフォームドコンセントがすべての被験者から得られました。

提案された Blink-To-Live システムのプロトタイプは、年齢、性別、教育レベル、テクノロジー意識などの異なる人口統計的特徴を持つ 10 の通常のケースを使用してテストされました。 テクノロジーの認識は、テスト実験に参加した各参加者の年齢、これまでの経験、文化的背景、教育レベルに応じて評価されます。 各ケースには、表 2 と表 3 にあるさまざまな目の言語のアルファベットとそれに関連するフレーズを学習する 1 週間のトレーニングがありました。次に、各ケースは、対応する目の言語のアルファベット (つまり、左、右、上、そして点滅します)。 各ケースでは、テストされたフレーズのそれぞれを話すために 5 回の試行が行われました。

表 6 は記録された結果を示しています。各ケースの最初の列にはコード化されたシンボルがあります。 平均通信速度、試行回数、通信精度は次の列に表示されます。 平均通信速度は、目のジェスチャーを認識し、対応するフレーズをモバイル画面に表示するのに必要な処理時間によって測定されます。 コミュニケーション精度は、テストされた 27 文のうち、アイアルファベットを使用して正しく話された文の数を数えることによって計算されます。

症例 (P-01 ~ P-10) には、男性 6 名、女性 4 名が含まれ、年齢は 21 ~ 79 歳です。症例 P-01、P-02、P-04、P-06、P-08、および P-10 は成功しました。 1 回の試行で、さまざまな目の言語アルファベットを表現し、それらに関連するフレーズのほとんどを正しく話します (表 6 を参照)。 症例 P-01、P-02、P-04、および P-10 は、P-06 および P-08 と比較して年齢が若く、年齢が 60 歳を超えています。彼らは全員、他の参加者よりも高い教育レベルとテクノロジーの認識を持っています。 。 ケース P-03、P-07、および P-09 は教育レベルが中程度であり、テクノロジーに対する意識が低いため、アイランゲージ アルファベットを表現するにはさらに多くの試行が必要でした。 ケース P-05 は、他のケースに比べて教育レベルとテクノロジーに対する意識が非常に低いため、パフォーマンスが最も悪くなっています。 通信速度はいずれの場合も一文を表現するのに15~25秒程度です。 この時間は、エンコードされたフレーズに含まれる目の遷移状態の数、意図したスピーチに従って頭を動かさずに目を正しく動かす能力、およびモバイル アプリケーションとバックエンド システムの間のインターネット接続速度によって異なります。 私たちの実験結果では、教育レベルが高く、テクノロジーへの意識が高く、目の言語訓練が行き届いており、インターネット接続が良好で、安定性がある普通の人々は、良好なコミュニケーション結果を達成しています。 十分なトレーニング時間があれば、教育レベルやテクノロジーに対する意識が低い人でも、高いパフォーマンスを達成できます。 同様の実験設定を持つ患者が同じパフォーマンスを達成するには、さらに多くのトレーニング (15 日間が予想される) が必要になります。 患者が携帯電話のカメラを開けるのを介護者に依存しているのは、さまざまな病気の段階に応じて筋肉を制御できる患者の能力にかかっています。 カメラを開いて患者の目を追跡すると、介護者が患者とのコミュニケーションを支援する必要はなくなりました。

Blink-to-Live システムをさらに評価するために、ネットワーク速度/帯域幅、送信者 (つまりモバイル) からサーバー (バックエンド モデル) に送信されるフレームの総数、フレーム解像度、デスクトップ バージョンを使用してシステムをテストします。 全体として、同じ眼球運動状態または少なくとも 1 つの遷移状態を持つほとんどの伝達文で、平均時間は 3 秒に達しました。 場合によっては、点滅状態をシステムが認識するのに時間がかかることがあるため、それに対応するフレーズは、点滅状態のない他のフレーズに比べて通信時間が長くなります。 [BLB] のシーケンスで表現される「眠りたい」などのフレーズは、P-01 と P-04 では発声できません。 2 つの異なる連続状態の間でゆっくりとした移行が行われました (図 9 を参照)。 また、[LRR]、[LRU]、[UBR]、[BRU]の連続シーケンスで表現される「Nose Block」、「Palpitations」、「My Computer is not Working」、「I Want to Pray」の文] という言葉を、連続する 2 つの状態の間で素早く移行したり、目のジェスチャーに合わせて頭を動かしたりしたため、一部の参加者は発話できませんでした。 したがって、Blink-To-Live システムは、意図された目のアルファベットのシーケンスを認識して、対応するフレーズを解読することができません。

Blink-To-Live システムの、異なるトランジション アイ ステート (L、R、U、B) を持つセンテンスの通信速度。

Blink-To-Live の通信速度は、ネットワーク速度/帯域幅、モバイル アプリケーションからサーバーに送信されるフレームの総数、フレーム解像度などの多くの外部要因の影響を受けるためです。 Blink-To-Live システムの通信速度、\({{\varvec{C}}{\varvec{S}}}^{{\varvec{B}}{\varvec{T}}{\varvec{ L}}}\) は、数学的に次のように特徴付けることができます。

ここで、 \({{\varvec{P}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}\) は、3 つの目の状態のシーケンスの処理時間です。 \({{\varvec{T}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}\) は、モバイル アプリケーションとモバイル アプリケーション間の送信時間です。サーバー。

平均すると、\({{\varvec{P}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}\) には 3 ~ 4 秒かかりますが、\( {{\varvec{T}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}\) は変数に関して定義できます: \({D}^ {BTL}\): 患者の眼球運動を検査するビデオ クリップの継続時間、\({FR}^{BTL}\): フレーム レート、\({F}^{BTL}\): 合計フレーム数モバイル アプリケーションからバックエンド システムに送信されます。 \({R}^{BTL}\): 携帯電話のカメラによって特徴付けられるフレーム解像度、 \({X}^{BTL}\): ビデオ フレームのピクセル数、 \({B}^{BTL}\) : ビデオ フレームのビット数、および \(N\) : bps 単位のネットワーク帯域幅。

技術用語では、dlib ライブラリに実装された 2 つの特徴抽出アプローチを比較しました。 最初のアプローチは CNN に依存しており、顔検出モジュールのみの実行時間は 3.33 秒ですが、Blink-To-Live ベースのアプローチの実行時間は 0.21 秒です (表 7 を参照)。

Blink-To-Live などの目ベースの追跡アプリケーションは、言語障害を持つ患者のための支援コミュニケーション技術として導入されています。 目ベースの追跡技術の成功には 2 つの要素が重要な役割を果たします。それは、患者の目を追跡するために使用されるハードウェア デバイスと、収集されたデータを処理するために使用されるソフトウェア アプリケーションです。 患者の目を追跡するデバイスは、Tobii Dyanvox や Eye Transfer などの高価な視線感知キーボードから、特殊なレンズ、電極、赤外線センサーを備えたメガネまで多岐にわたります。 提案された Blink-To-Live システムは、高価な専用デバイスや人間の目に直接配置されたハードウェア センサーを使用せずに、単純なカメラを使用して患者の目を追跡する別のアプローチに従っています。

収集されたデータを処理するソフトウェア アプリケーションは、顔のランドマークの検出、目の識別、追跡のために機械と深層学習技術に依存しています。 Blink-To-Live システムでは、dlib ライブラリに実装された特徴抽出アプローチである HOG + SVM を使用して、顔のランドマークを識別し、その他のコンピューター ビジョン モジュールを使用して、さまざまな目の動きや瞬きの状態を追跡しました。 アイダウン状態は、まばたき状態と競合するため、このバージョンの Blink-To-Live アプリケーションでは検出されません。この状態は、強化学習などの手法を使用することで将来解決できる可能性があります。 また、Blink-To-Live システムは、大規模なコンピュータ ビジョン バックエンド モジュールがリアルタイムでビデオ フレームを処理し、その結果をモバイル アプリケーションに送り返すため、わずかな遅延が発生します。そのため、通信速度は他の直接システムに比べて遅くなります。 -アイコンタクト追跡システム。 通信速度は、高速処理のバックエンド サービスと、クライアント アプリケーションとサーバー アプリケーション間の Web ソケット通信を開発することで向上できます。

Blink-To-Live は、目だけで周囲の世界とコミュニケーションを開始できる言語障害患者向けの、シンプルでコスト効率の高いモバイル アプリケーションです。 これは、一連のコンピューター ビジョン モジュールと修正版の Blink-To-Speak 言語を利用して、さまざまな目のジェスチャーを、患者が感情やニーズを表現するために使用する一連の日常生活コマンドに変換します。 患者/介護者は、さまざまな患者の目の動きを追跡するために、サポートされているカメラを備えた携帯電話のみを使用します。 合成された視線ベースの音声は、それに応じて電話画面に表示されます。 当社のシステムの将来の改善は、最新のリアルタイム画像分析および処理アプローチを利用した高速処理バックエンド システムを開発することにより、通信速度を向上させることです。 また、強化学習アルゴリズムにより、目の検出、まばたき、および追跡モジュールを強化して、高精度の結果を達成し、目の動きの状態間の矛盾を解決できます。 さらに、各患者はアプリケーションに登録されたプロフィールを持っています。 将来的には、アプリケーションは患者の目の属性、動き、まばたきの動作を学習し、通信速度を向上させ、患者のさまざまなニーズに応じてアプリケーションをカスタマイズできるようになります。 Blink-To-Live は、目のジェスチャーで患者の生活環境を制御するハードウェア デバイスに依存する他のシステムと簡単に統合できます。

Blink-To-Live は、GNU GPL ライセンスに基づいてリリースされた無料のオープンソース ソフトウェアであり、そのソースは GitHub リポジトリ (https://github.com/ZW01f/Blink-To-Live) です。

Spataro, R.、Ciriacono, M.、Manno, C.、La Bella, V. 筋萎縮性側索硬化症におけるコミュニケーションのための視線追跡コンピューター装置。 アクタニューロール。 スキャン。 130、40–45 (2014)。

論文 CAS PubMed Google Scholar

Caligari, M.、Godi, M.、Guglielmetti, S.、Francignoni, F. & Nardone, A. 筋萎縮性側索硬化症における視線追跡通信装置: 障害と生活の質への影響。 アミオトロップ。 側索硬化症前頭温度。 デゲン。 14、546–552 (2013)。

記事 Google Scholar

トビディナボックス。 コミュニケーションのための支援技術、https://us.tobiidynavox.com/ (2023)。

ボード、E.-t. Eye Transfer Board、https://www.bridges-canada.com/products/9594-1 (2023)。

Cognolato, M.、Atzori, M. & Müller, H. ヘッドマウント視線追跡デバイス: 最新のデバイスと最近の進歩の概要。 J.リハビリテーション。 支援する。 テクノロジー。 工学 5、2055668318773991 (2018)。

Google スカラー

Verbaarschot、C. et al. 筋萎縮性側索硬化症患者のコミュニケーション補助としての視覚的な脳とコンピューターのインターフェイス。 クリン。 神経生理学。 132、2404–2415。 https://doi.org/10.1016/j.clinph.2021.07.012 (2021)。

論文 PubMed Google Scholar

2017 年の第 8 回 IEEE 認知情報通信国際会議 (CogInfoCom) で、Katona, J.、Ujbanyi, T.、Sziladi, G. & Kovari, A. 人間の脳波に対するさまざまな Web ベースのメディアの影響を調べる。 000407 ~ 000412 (IEEE)。

Holz, EM、Botrel, L.、Kaufmann, T. & Kübler, A. 家庭での長期にわたる独立したブレイン・コンピューター・インターフェースの使用により、閉じ込められた状態にある患者の生活の質が向上する: ケーススタディ。 アーチ。 物理学。 医学。 リハビリ。 96、S16–S26 (2015)。

論文 PubMed Google Scholar

LA ファーウェル & E ドンチン。頭のてっぺんからの話: 事象関連の脳電位を利用した精神補綴物に向けて。 脳波計。 クリン。 神経生理学。 70、510–523 (1988)。

論文 CAS PubMed Google Scholar

Sutter, EE 脳反応インターフェース: 視覚的に引き起こされる脳の電気的反応を介したコミュニケーション。 J. マイクロコンピュータ。 応用 15、31–45 (1992)。

記事 Google Scholar

Gembler, FW、Benda, M.、Rezeika, A.、Stawicki, PR & Volosyak, I. 非同期 c-VEP 通信ツール - ローターゲット、マルチターゲット、および辞書支援 BCI スペルの効率比較。 科学。 議員 10、17064 (2020)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Nagel, S. & Spüler, M. 世界最速のブレイン コンピューター インターフェイス: EEG2Code と深層学習を組み合わせたもの。 PLoS ONE 14、e0221909 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

プラウドフット、M. 他筋萎縮性側索硬化症における視線追跡:衝動性および認知的課題の縦断的研究。 アミオトロップ。 側索硬化症前頭温度。 退廃的。 17、101–111 (2016)。

記事 Google Scholar

Pinto, S.、Quintarelli, S. & Silani, V. 新しいテクノロジーと筋萎縮性側索硬化症 - 新型コロナウイルス感染症のパンデミックによってどのような前進が急がれましたか? J.Neurol. 科学。 418、117081。https://doi.org/10.1016/j.jns.2020.117081 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Pasqualotto、E. et al. 重度の運動障害を持つ人々に対するアクセス技術の使いやすさと作業負荷: 脳とコンピュータのインターフェースと視線追跡の比較。 神経リハビリテーション。 ニューラル修復 29、950–957 (2015)。

論文 PubMed Google Scholar

カルボ、A.ら。 障害者用コンピュータに関する国際会議で。 70–77(スプリンガー)。

Gibbons, C. & Beneteau, E. ALS 患者による視線制御とシングル スイッチ スキャンを使用した機能的パフォーマンス。 視点。 増強。 代替品。 共通。 19、64–69 (2010)。

記事 Google Scholar

Yedavalli, VS、Patil, A. & Shah, P. 筋萎縮性側索硬化症とその模倣体/変異体: 包括的なレビュー。 J.クリン. 画像科学。 8 (2018)。

Zarei, S. et al. 筋萎縮性側索硬化症の包括的なレビュー。 外科。 ニューロール。 内部。 6 (2015)。

ライト、J. et al. 強化的かつ代替的なコミュニケーションにおける課題と機会: 複雑なコミュニケーションのニーズを持つ個人のコミュニケーションと参加を強化するための研究と技術開発。 増強。 オルターン。 共通。 35、1–12 (2019)。

論文 ADS PubMed Google Scholar

2019 年ニューラル ネットワークに関する国際合同会議 (IJCNN) における Pai, S. および Bhardwaj, A. 1~8。

Tarek、N. et al. モールス眼鏡: 音声障害を持つユーザーのためのモールス信号に基づく IoT 通信システム。 コンピューティング 104、789–808。 https://doi.org/10.1007/s00607-021-00959-1 (2022)。

記事 Google Scholar

2015 年通信・情報・コンピューティング技術に関する国際会議 (ICCICT) における Mukherjee, K. と Chatterjee, D. 1 ~ 5 (IEEE)。

Sane、H. Blink-To-Speak、https://www.blinktospeak.com/blink-to-speak-guide (2022)。

エデュゲル、HO et al. 筋萎縮性側索硬化症患者のための視線追跡支援技術。 IEEE アクセス 10、41952 ~ 41972。 https://doi.org/10.1109/access.2022.3164075 (2022)。

記事 Google Scholar

Pugliese, R.、Sala, R.、Regondi, S.、Beltrami, B. & Lunetta, C. 筋萎縮性側索硬化症患者の管理のための新興技術: 遠隔医療から支援ロボット工学およびニューラル インターフェイスまで。 J.Neurol. 269、2910–2921。 https://doi.org/10.1007/s00415-022-10971-w (2022)。

記事 PubMed PubMed Central Google Scholar

Lim, JZ、Mountstephens, J. & Teo, J. 生体認証機械学習のための視線追跡特徴抽出。 フロント。 ニューロロブ。 15(2021)。

Cheng, S.、Ping, Q.、Wang, J. & Chen, Y. EasyGaze: ハンドヘルド モバイル デバイス向けのハイブリッド アイ トラッキング アプローチ。 仮想現実のインテル。 ハードウェア 4、173–188 (2022)。

記事 Google Scholar

インテリジェント システムのモデリングと開発における Cocha Toabanda、E.、Erazo、MC、および Yoo、SG: 第 8 回国際会議、MDIS 2022、シビウ、ルーマニア、2022 年 10 月 28 ~ 30 日、厳選された論文の改訂。 18–41(スプリンガー)。

Santini, T.、Fuhl, W. & Kasneci, E. PuRe: リアルタイムのパーベイシブ アイ トラッキングのための堅牢な瞳孔検出。 計算します。 ヴィス。 画像理解。 170、40〜50。 https://doi.org/10.1016/j.cviu.2018.02.002 (2018)。

記事 Google Scholar

Liu, J.、Chi, J.、Yang, H.、および ying, X. 見る人の目: 視線追跡技術の調査。 パターン認識。 132、108944。https://doi.org/10.1016/j.patcog.2022.108944 (2022)。

記事 Google Scholar

Khan、MQ & Lee、S. 視線と視線追跡: ADAS における技術と応用。 センサー 19、5540 (2019)。

論文 ADS PubMed PubMed Central Google Scholar

Al-Rahayfeh, A. & Faezipour, M. 視線追跡と頭の動きの検出: 最先端の調査。 IEEE J. Transl. 工学健康医学。 1、2100212–2100212 (2013)。

記事 PubMed PubMed Central Google Scholar

2017 年の IEEE アジア家電国際会議 (ICCE-Asia) における Lingegowda, DR、Amrutesh, K.、Ramanujam, S.。 36–40 (IEEE)。

Käthner, I.、Kübler, A. & Halder, S. バイナリ通信のための視線追跡、眼電図、および聴覚脳コンピューターインターフェースの比較: ロックイン状態の参加者を対象としたケーススタディ。 J.Neuroeng. リハビリ。 12、1–11 (2015)。

記事 Google Scholar

森本 CH および Mimica MR インタラクティブ アプリケーションのための視線追跡技術。 計算します。 ヴィス。 画像理解。 98、4–24 (2005)。

記事 Google Scholar

リュー、SS et al. ALS およびその他の閉じ込められた病気を持つ人々のための視線追跡およびヒューマン コンピューター インターフェイス システム。 CMBES 議事録 33 (2010)。

2009 年の生物医学および通信技術における応用科学に関する第 2 回国際シンポジウムにおける Raudonis, V.、Simutis, R. & Narvydas, G.。 1 ~ 6 (IEEE)。

Lu, F.、Sugano, Y.、Okabe, T.、Sato, Y. 外観に基づく視線推定のための適応線形回帰。 IEEEトランス。 パターンアナル。 マッハ。 知性。 36、2033 ~ 2046 年 (2014)。

記事 Google Scholar

Wang, Y. et al. 大規模な合成目の画像からの近傍選択による視線推定器の学習。 知識ベースのシステム 139、41–49 (2018)。

記事 Google Scholar

Kacete, A.、Séguier, R.、Collobert, M.、Royan, J. がコンピュータ ビジョンに関するアジア会議に参加。 419–432 (スプリンガー)。

ウー、Y.-L.、イェー、C.-T.、フン、W.-C. & 唐、C.-Y. アクティブな外観モデルを備えたサポート ベクター マシンを使用した視線方向の推定。 マルチム。 ツールアプリケーション 70、2037 ~ 2062 年 (2014)。

記事 Google Scholar

Akinlar, C.、Kucukkartal, HK & Topal, C. 楕円フィット誤差正則化項を使用した正確な cnn ベースの瞳孔セグメンテーション。 エキスパートシステム。 応用 188、116004 (2022)。

記事 Google Scholar

カトナ、J. et al. アイトラッキングを使用して、LINQ のクエリ構文とメソッド構文の理解を調べる。 2020 年の第 11 回 IEEE 認知情報通信国際会議 (CogInfoCom)。 000437 ~ 000444 (IEEE)。

Adhanom, IB、MacNeilage, P. & Folmer, E. 仮想現実における視線追跡: アプリケーションと課題の広範なレビュー。 バーチャル リアリティ、1 ~ 24 (2023)。

Dæhlen, A.、Heldal, I.、Katona, J. 視力検査をサポートするための没入型仮想現実アプリケーションの開発に向けて – ユーザー調査。 J.Appl. 技術。 教育する。 科学。 12、330 (2022)。

Google スカラー

Flutter:あらゆる画面向けのアプリを構築、https://flutter.dev/ (2022)。

2005 年のコンピュータ ビジョンとパターン認識に関する IEEE コンピュータ協会会議 (CVPR'05) における Dalal, N. および Triggs, B.。 886–893 巻。 881。

Kazemi, V. & Sullivan, J.、コンピュータ ビジョンとパターン認識に関する IEEE 会議議事録。 1867 ~ 1874 年。

リアルタイム顔ポーズ推定用の Dlib C++ ライブラリ、http://blog.dlib.net/2014/08/real-time-face-pose-estimation.html (2014)。

Sagonas , C. 、 Antonakos , E. 、 Tzimiropoulos , G. 、 Zafeiriou , S. & Pantic , M. 300 Faces In-The-Wild Challenge: データベースと結果。 画像ビュー。 コンピューティング。 47、3–18。 https://doi.org/10.1016/j.imavis.2016.01.002 (2016)。

記事 Google Scholar

Cech, J. & Soukupova, T. 顔のランドマークを使用したリアルタイムのまばたき検出。 セント。 マッハ。 知覚、部門。 サイバーン。 ファック。 エレクトロ。 工学チェコ工科大学。 大学プラハ、1-8 (2016)。

Reddy, B.、Kim, Y.-H.、Yun, S.、Seo, C.、Jang, J. 顔のランドマークを使用したリアルタイムのまばたき検出。 IEEE CVPRW (2017)。

Python ライブラリの翻訳、https://pypi.org/project/translate/ (2022)。

Microsoft Azure による Text to Speech サービス、https://azure.microsoft.com/en-in/services/cognitive-services/text-to-speech/ (2022)。

FastAPI、https://fastAPI.com/ (2022)。

Brownlee, A. & Bruening, LM 筋萎縮性側索硬化症患者の終末期におけるコミュニケーション方法。 上。 ラング。 障害。 32、168–185 (2012)。

記事 Google Scholar

Brownlee, A. & Palovcak, M. ALS の医学的管理における拡張通信デバイスの役割。 NeuroRehabilitation 22、445–450 (2007)。

論文 PubMed Google Scholar

リファレンスをダウンロードする

Google Anita Borg Memorial Scholarship は、S.El-M のこの活動を支援しました。

マンスーラ大学コンピューター情報学部コンピューターサイエンス学科、私書箱: 35516、マンスーラ、エジプト

モハメド・エザット、モハメド・マジド、ユセフ・ガマル、ムスタファ・アデル、モハメド・アルラフマウィ、サラ・エル・メトワリー

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

ME、MA、S.El-M。 方法論の設計、形式的な分析、ソフトウェアの検証、およびデータのキュレーションを担当しました。 私、MM、YG、M.Ad。 ソフトウェア開発、検証、テストに参加してきました。 S.El-M. 概念化、視覚化、執筆、および元の草案のレビューを担当しました。 MA および S.El-M。 プロジェクト管理を担当しました。 著者全員が結果を検証し、原稿をレビューしました。

サラ・エル・メトワリーへの通信。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Ezzat, M.、Maged, M.、Gamal, Y. 他言語障害を持つユーザー向けの Blink-To-Live 目ベースのコミュニケーション システム。 Sci Rep 13、7961 (2023)。 https://doi.org/10.1038/s41598-023-34310-9

引用をダウンロード

受信日: 2022 年 11 月 10 日

受理日: 2023 年 4 月 27 日

公開日: 2023 年 5 月 17 日

DOI: https://doi.org/10.1038/s41598-023-34310-9

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。