python マイク入力音声のテキスト化方法[SpeechRecognition 音声認識 文字起こし]

Python
この記事は約5分で読めます。

プログラム解説

まずは、マイク音声の録音ですが、マイク音声の入力については以下にて紹介していますので、そちらを参照ください。

ではここから本題の認識部分で、全体としては以下の数行で行います。

import speech_recognition

    print("######Start Speech Recognition######")
    sprec = speech_recognition.Recognizer()  # インスタンスを生成
    with speech_recognition.AudioFile(record_filepath) as sprec_file:
        sprec_audio = sprec.record(sprec_file)
        sprec_text = sprec.recognize_google(sprec_audio, language='ja-JP')
        print(sprec_text)
    print("######Finish Speech Recognition######")

まずは、speech_recognition.Recognizerでインスタンスを生成します。
そのあとはspeech_recognition.AudioFile(ファイル)

ファイルが取得できたら、sprec.record( 取得したファイル )でデータの読み出し
最後に、sprec.recognize_google(オーディオデータ、言語)でテキストに変換
※language=’ja-JP’で日本語であることを指定

まとめ

すごく興味があって、このプログラムに挑戦してみましたが、簡単すぎてちょっと拍子抜けしてしましました。
まぁ、実際にはsprec.recognize_googleの中で、インターネット経由でgoogleを呼び出ししたりしているのだと思いますが、ユーザーはたった数行で変換できてとても便利ですね。

これをうまく活用していけば、それこそスマートスピーカーや家電を作っていけるのでしょうね。

ではまた、機会があれば何かやってみることにします。

リアルタイムでの文字起こしの方法が知りたいって方は、以下に記事記載しましたので見てみてください。

Pythonの基礎を学びたい方は以下がおすすめです。私も持っていてたまに眺めて勉強していますものですのでぜひ購入して学習してみてください。

コメント

タイトルとURLをコピーしました