NINA HOUSE

技術ブログ作ってみる

【AI-900】音声の認識と合成

Azureの音声認識・合成のサービス

docs.microsoft.com

音声認識 - 音声入力を検出して解釈する機能

テキスト変換するのが一般的。

  • 録画またはライブの動画のクローズド キャプションの提供
  • 電話または会議の音声テキストの作成
  • メモの自動ディクテーション
  • 処理の対象となるユーザー入力の特定  など
音声合成 - 音声出力を生成する機能
  1. システムによる音声の合成では通常、テキストが "トークン化" されて個々の単語に分割され、各単語に音声の音が割り当てられる
  2. 音声のトランスクリプトが "韻律" 単位 (フレーズ、句、文など) に分割され、オーディオ形式に変換される音素が作成される  3. これらの音素が、音の高さや音質などのパラメーターを決定する音が適用され、スピーカーへの出力やファイルへの書き込みが可能なオーディオ WAVE 形式が生成されることで、音声として合成される

Azureで提供されているサービス 、必要なリソース

Speech to Text API
  • リアルタイムの文字起こし
  • バッチの文字起こし(storageに入ってたりする音声ファイル)
Text to Speech API
  • 音声合成
    サポートされている言語はこちら↓

言語サポート - 音声サービス - Azure Cognitive Services | Microsoft Docs

言語サポート - 音声サービス - Azure Cognitive Services | Microsoft Docs

【必要なリソース】
音声かCognative Services