エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
TL;DR Neural Vocoderはメルスペクトログラム等の音響特徴量から波形を復元するモジュール 従来の時間領... TL;DR Neural Vocoderはメルスペクトログラム等の音響特徴量から波形を復元するモジュール 従来の時間領域型 (HiFi‐GANなど) はエイリアシングを避けられず高F0などの条件で大きく劣化 Wavehaxは時間周波数領域でConv2Dにより処理しiSTFTで合成することで、この問題を根本的に回避 Harmonic Priorにより周期情報を明示的に与えるため1Mパラメータ未満でも高品質 JVSコーパスによる評価で、学習範囲外の高F0を含む音声でも従来手法と比べて大幅な改善を確認 本記事ではNeural Vocoderとは何かから、従来手法の問題点・Wavehaxの改善点・再現手順・内部分析・派生研究までをまとめて紹介します! はじめに こんにちは、Parakeet株式会社リサーチャーの今井(X: Nuts)です。 普段は音声変換やテキスト音声合成の研究開発をしています。