Pythonでマイク入力音声をテキストに変換する方法：SpeechRecognitionを使った音声認識と文字起こし

Python

2023.09.13 2022.03.29

この記事は約5分で読めます。

プログラム解説
まとめ

プログラム解説

まずは、マイク音声の録音ですが、マイク音声の入力については以下にて紹介していますので、そちらを参照ください。

ではここから本題の認識部分で、全体としては以下の数行で行います。

import speech_recognition

    print("######Start Speech Recognition######")
    sprec = speech_recognition.Recognizer()  # インスタンスを生成
    with speech_recognition.AudioFile(record_filepath) as sprec_file:
        sprec_audio = sprec.record(sprec_file)
        sprec_text = sprec.recognize_google(sprec_audio, language='ja-JP')
        print(sprec_text)
    print("######Finish Speech Recognition######")

まずは、speech_recognition.Recognizerでインスタンスを生成します。
そのあとはspeech_recognition.AudioFile(ファイル)

ファイルが取得できたら、sprec.record( 取得したファイル )でデータの読み出し
最後に、sprec.recognize_google(オーディオデータ、言語)でテキストに変換
※language=’ja-JP’で日本語であることを指定

まとめ

すごく興味があって、このプログラムに挑戦してみましたが、簡単すぎてちょっと拍子抜けしてしましました。
まぁ、実際にはsprec.recognize_googleの中で、インターネット経由でgoogleを呼び出ししたりしているのだと思いますが、ユーザーはたった数行で変換できてとても便利ですね。

これをうまく活用していけば、それこそスマートスピーカーや家電を作っていけるのでしょうね。

ではまた、機会があれば何かやってみることにします。

リアルタイムでの文字起こしの方法が知りたいって方は、以下に記事記載しましたので見てみてください。