NINA HOUSE

技術ブログ作ってみる

【AI-900】音声の認識と合成

Azure AI-900

Azureの音声認識・合成のサービス
- 音声認識 - 音声入力を検出して解釈する機能
  - 音声合成 - 音声出力を生成する機能
Azureで提供されているサービス、必要なリソース
- Speech to Text API
- Text to Speech API

Azureの音声認識・合成のサービス

docs.microsoft.com

音声認識 - 音声入力を検出して解釈する機能

テキスト変換するのが一般的。

録画またはライブの動画のクローズドキャプションの提供
電話または会議の音声テキストの作成
メモの自動ディクテーション
処理の対象となるユーザー入力の特定　など

音声合成 - 音声出力を生成する機能

システムによる音声の合成では通常、テキストが "トークン化" されて個々の単語に分割され、各単語に音声の音が割り当てられる
音声のトランスクリプトが "韻律" 単位 (フレーズ、句、文など) に分割され、オーディオ形式に変換される音素が作成される　　3. これらの音素が、音の高さや音質などのパラメーターを決定する音が適用され、スピーカーへの出力やファイルへの書き込みが可能なオーディオ WAVE 形式が生成されることで、音声として合成される

Azureで提供されているサービス、必要なリソース

Speech to Text API

リアルタイムの文字起こし
バッチの文字起こし（storageに入ってたりする音声ファイル）

Text to Speech API

音声合成
サポートされている言語はこちら↓

言語サポート - 音声サービス - Azure Cognitive Services | Microsoft Docs

言語サポート - 音声サービス - Azure Cognitive Services | Microsoft Docs

【必要なリソース】
音声かCognative Services