Hush
Hushはリアルタイムで音声に含まれる雑音などのノイズのみを除去するOSSです。任意の人物の音声データに雑音(カフェや工事の音や街の中などのノイズ)が含まれている場合、これを除いた状態で出力する、というもの。
主に音声AIエージェント向けに開発されたもので、音声にノイズが含まれている事による誤認を防ぐ事でAIに正しいデータを届ける事を目的としています。
Hugging FaceのAudio to Audioモデルで5位につけた強化音声AIモデルで、様々な雑音を学習しており、GPU不要のCPUのみで動作、8MBほどのサイズで様々な音声AIサプリに組み込めるよう設計されているとの事です。
顧客は常に静かな場所で電話をかけてくるとは限らず、多くの場合ノイズが混ざっていて聞き取りにくいケースもある中で現在機能している音声AIエージェントには音声の認識に特化しているためノイズが混ざっている事が既に想定外です。
このギャップを埋めるためのもので、いずれはよく使われている音声AIモデルもノイズを除去するものが登場する可能性は高いですが、今の時点ではソリューションと成り得るかなと思います。詳細等は以下でご確認下さい。
