この記事は、合併前の旧ブログに掲載していた記事(初出:2023年3月29日)を、現在のブログへ移管したものです。現時点の情報に合わせ、表記やリンクの調整を行っています。
こんにちは。ヤフーの音声認識エンジン「YJVOICE」の研究開発を担当している前角です。この記事ではヤフーにおける音声処理技術の研究開発の最新の取り組みの中から、自己教師あり学習を用いた音声言語モデルの改善手法について取り上げます。今回は音声向けの表現学習モデル「HuBERT」を用いたところ、学習データが不足する状況下でも、すべての評価指標において前回提案した手法を上回る性能を達成できました。
なお、今回の内容は前回紹介した「ラベルなしの音声データを用いて言語理解が可能に?音声言語モデルの性能改善手法のご紹介」の続きですので、そちらも合わせてご覧いただければと思います。
また、本研究は米国カーネギーメロン大学の渡部晋治准教授との共同研究として実施したものです。詳細は昨年開催された信号処理分野のトップ国際会議「ICASSP 2022」で発表していますので、ご興味がある方はぜひ論文の方もご覧ください。
はじめに
近年、自己教師あり学習が機械学習の分野で大変注目を集めています。自己教師あり学習は、人手で付与した教師ラベルを用いずにデータ自体に含まれる情報を使って予測問題を解く手法で、音声処理の分野においても数多くの応用例が報告されています。その中の1つとして、テキストデータを使用せず、音声データのみを用いて音声対話システムを実現しようとする研究がいくつか提案されています。これらの取り組みの背景には、音声のゼロリソース問題と呼ばれるものがあります。