音声認識アルゴリズムはスマートスピーカーやスマートフォンなど、さまざまなデバイスやアプリケーションに採用されており、もはや日常の一部となっています。ところが、AppleやAmazon、Google、IBM、Microsoftなどの音声認識アルゴリズムを使った実験で、「音声認識アルゴリズム白人の声と比較して黒人の声を上手く認識できない」問題があることが判明しました。
音声認識アルゴリズムはスマートアシスタントの操作や音声入力、文字起こしサービスなど、さまざまなアプリケーションに採用されています。音声を認識するシステムには機械学習アルゴリズムが用いられており、開発者らが用意した音声データやテキストデータで機械学習アルゴリズムが訓練されています。
そんな音声認識アルゴリズムの精度を調査するため、スタンフォード大学の研究チームはApple、Amazon、Google、IBM、Microsoftの音声認識アルゴリズムに対し、さまざまな人が話した音声を文字に変換させる実験を行いました。実験に用いられた音声は合計で19.8時間分であり、42人の白人と73人の黒人によって話された2141個の音声で構成されていたとのこと。また、話者の44%が男性であり、平均年齢は45歳だったそうです。
実験の結果、各社の音声認識アルゴリズムは平均で白人が話した単語のうち19%を誤認しましたが、黒人が話した単語が誤認される割合は35%に上りました。また、エラー率は黒人男性で全体の41%、黒人女性のエラー率は30%でした。
以下のグラフが、各社の音声認識アルゴリズムによる白人話者のエラー率と黒人話者のエラー率を比較したもの。どの音声認識アルゴリズムにおいても、黒人が話す言葉のエラー率が白人の話す言葉のエラー率を上回っていることがわかります。Appleの音声認識アルゴリズムが最もエラー率が高く、黒人話者のエラー率は45%、白人話者のエラー率は23%。最も成績がよかったMicrosoftの音声認識アルゴリズムでも、黒人話者のエラー率は27%、白人話者のエラー率は15%となりました。
2020-04-18 18:25:26