エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
はじめに 画像生成AIのDALL・E2や文章生成AIのGPT-3で何かと話題のOpenAIですが、今度は、音声認識の世... はじめに 画像生成AIのDALL・E2や文章生成AIのGPT-3で何かと話題のOpenAIですが、今度は、音声認識の世界でもやってくれました。 2022年9月22日に高性能な音声認識 AIのWhisperを発表したのです。日本語にも対応していたので、早速、Google Colaboratoryで実装してみました。 驚くほど簡単に実装でき、かつ、驚くほど精度が高くて、びっくりしました。 ここでは、Whisperの概要について簡単に触れた上で、Google Colaboratoryでの実装方法、精度をお示ししたいと思います。 Whisperについて OpenAIの公式サイトから、概要をご紹介します。 Whisperは、ウェブから収集した68万時間に及ぶ多言語・マルチタスク教師付きデータで学習させた自動音声認識(ASR)システムです。 大規模で多様なデータセットを使用したことで、アクセント、背景雑音、