エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
音声認識の世界では、OpenAIが開発したwhisperというモデルが話題になりましたね。99言語に対応しており... 音声認識の世界では、OpenAIが開発したwhisperというモデルが話題になりましたね。99言語に対応しており、日本語の音声認識の精度も抜群です。 非常に優秀なwhisperですが、いつ誰が話したのかを認識する、いわゆる「話者分離」はできません...。 ということで、アドベントカレンダー8日目の記事では、pyannote.audioというライブラリを使った話者分離方法について紹介します。 pyannote.audioの概要 pyannote.audioは、話者分離のためのPythonによるオープンソースフレームワークです。 下記のようなパイプラインで話者分離を実現しています。 論文:pyannote.audio: neural building blocks for speaker diarization Github:https://github.com/pyannote/pyannote