エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
こんにちは AIチームの戸田です 音声区間検出は音声と音声以外の音が含まれる信号データ内で、音声が存... こんにちは AIチームの戸田です 音声区間検出は音声と音声以外の音が含まれる信号データ内で、音声が存在する区間を判別する技術です。音声が人の発話の場合には発話区間検出とも呼ばれます。音声認識を行う際、事前に音声区間と音声以外の区間(雑音やBGM、または無音区間など)を判別することで認識率の向上や演算量の削減が期待できます。 以前、信号パワーと零交差数を用いた音声区間検出の記事を書かせていただきましたが、こちらは機械学習を用いないシンプルな手法でした。今回は近年主流になっている機械学習(ニューラルネット)を用いた手法を試してみたいと思います。 inaSpeechSegmenter 音声区間検出ライブラリとしてinaSpeechSegmenterを利用します。こちらはCNNベースの音声区間検出手法となっており、軽量でCPU上でも動作させることが出来ます。(もちろんGPUを使って高速に動作させる