【AI-900】音声の認識と合成
Azureの音声認識・合成のサービス
音声認識 - 音声入力を検出して解釈する機能
テキスト変換するのが一般的。
- 録画またはライブの動画のクローズド キャプションの提供
- 電話または会議の音声テキストの作成
- メモの自動ディクテーション
- 処理の対象となるユーザー入力の特定 など
音声合成 - 音声出力を生成する機能
- システムによる音声の合成では通常、テキストが "トークン化" されて個々の単語に分割され、各単語に音声の音が割り当てられる
- 音声のトランスクリプトが "韻律" 単位 (フレーズ、句、文など) に分割され、オーディオ形式に変換される音素が作成される 3. これらの音素が、音の高さや音質などのパラメーターを決定する音が適用され、スピーカーへの出力やファイルへの書き込みが可能なオーディオ WAVE 形式が生成されることで、音声として合成される
Azureで提供されているサービス 、必要なリソース
Speech to Text API
- リアルタイムの文字起こし
- バッチの文字起こし(storageに入ってたりする音声ファイル)
Text to Speech API
- 音声合成
サポートされている言語はこちら↓
言語サポート - 音声サービス - Azure Cognitive Services | Microsoft Docs
言語サポート - 音声サービス - Azure Cognitive Services | Microsoft Docs
【必要なリソース】
音声かCognative Services