Pythonでリアルタイム音声文字起こし！SpeechRecognitionとPyAudioを使った方法

前回は、Waveファイルに起こしたデータの文字起こしに挑戦してみましたが、今回はリアルタイムでマイク音声文字起こしする方法に挑戦してみましたので、その方法についてシェアいたします。

今回は、前回までに記事にした二つの合わせ技でリアルタイム文字起こし環境を作成しています。
今回の記事内にURLを張り付けておくので興味ある方はそちらを見てみてください。

使用ライブラリ
プログラムと実行結果
プログラム解説
まとめ

使用ライブラリ

まずは、今回のプログラムに必要なライブラリです。

pyaudio
speech_recognition

今回のライブラリはすでにインストール済みですので、すいませんが、画像はありません。
インストールには以下のコマンドを入力することでインストール可能です。

pip install XXX

※XXXに上記のライブラリ名を入れてください。

プログラムと実行結果

ではいつも通りプログラムの全体です。

import time
import speech_recognition
import pyaudio

SAMPLERATE = 44100

def callback(in_data, frame_count, time_info, status):
    global sprec 
    try:
        audiodata = speech_recognition.AudioData(in_data,SAMPLERATE,2)
        sprec_text = sprec.recognize_google(audiodata, language='ja-JP')
        print(sprec_text)
    except speech_recognition.UnknownValueError:
        pass
    except speech_recognition.RequestError as e:
        pass
    finally:
        return (None, pyaudio.paContinue)
    
def main():
    global sprec 
    sprec = speech_recognition.Recognizer()  # インスタンスを生成
    # Audio インスタンス取得
    audio = pyaudio.PyAudio() 
    stream = audio.open( format = pyaudio.paInt16,
                        rate = SAMPLERATE,
                        channels = 1, 
                        input_device_index = 1,
                        input = True, 
                        frames_per_buffer = SAMPLERATE*2, # 2秒周期でコールバック
                        stream_callback=callback)
    stream.start_stream()
    while stream.is_active():
        time.sleep(0.1)
    
    stream.stop_stream()
    stream.close()
    audio.terminate()
    

    
if __name__ == '__main__':
    main()

実行結果は以下です。
プログラムを実行して、声をマイクに入力したところです。

続いてはプログラムの解説ですが、解説は次ページにて記載します。

プログラム解説

このプログラムでは以下のような流れで処理を行っています。

speech_recognitionのRecognizerインスタンスを取得
PyAudioインスタンスを取得してマイク入力状態にする
文字起こし処理(PyAudioのコールバックによる処理)
後処理

前回、記事にした音声入力のコールバック処理で音声認識を一定周期事に行うようにしています。

speech_recognitionのRecognizerインスタンスを取得

これは簡単です。コードとしては以下だけです。
コールバックの中でこのインスタンスを使用したいので、グローバルとしています。
これは、コールバックの中でインスタンスを生成してもいいですが、そうする場合コールバック内でインスタンスの生成が毎回行われて無駄なので、グローバルとして定義しています。

    global sprec 
    sprec = speech_recognition.Recognizer()  # インスタンスを生成

PyAudioインスタンスを取得してマイク入力状態にする

続いて、マイク入力の開始処理です。
以下がその処理該当します。
流れ的には、前回の正弦波音声出力とほぼ同じです。
違うところは、基本的にaudio.openのパラメータをoutputからinputに変更しているだけです。
frames_per_bufferは、コールバックが来る周期となります。
今回は、2秒周期くらいで処理するのが適切と思いますので、サンプリングレート*2の2秒で設定しています。
※サンプリングレートは、1秒間にどれだけサンプリングするかのこと
また、処理行うためのコールバック関数は、callbackという名前の関数を設定しています。

# Audio インスタンス取得
    audio = pyaudio.PyAudio() 
    stream = audio.open( format = pyaudio.paInt16,
                        rate = SAMPLERATE,
                        channels = 1, 
                        input_device_index = 1,
                        input = True, 
                        frames_per_buffer = SAMPLERATE*2, # 2秒周期でコールバック
                        stream_callback=callback)
    stream.start_stream()
    while stream.is_active():
        time.sleep(0.1)

具体的な内容を知りたい方は、以下を参照してください。

Pythonで正弦波を生成して音を出す方法：PyaudioとNumpyを使った音声出力の解説

この記事では、PythonでPyaudioとNumpyを使って正弦波を生成し、音を出す方法を解説します。音声の入力処理だけでなく、出力処理にも挑戦したい方のために、プログラムの書き方から実行結果、詳細な解説までをわかりやすく説明します。

文字起こし処理(PyAudioのコールバックによる処理)

では実際の文字起こし処理です。
この関数は、2秒周期でpyaudioから入力データが通知されてきます。
あとは、speech_recognitionのAPIを呼び出しし文字起こしをしています。

def callback(in_data, frame_count, time_info, status):
    global sprec 
    try:
        audiodata = speech_recognition.AudioData(in_data,SAMPLERATE,2)
        sprec_text = sprec.recognize_google(audiodata, language='ja-JP')
        print(sprec_text)
    except speech_recognition.UnknownValueError:
        pass
    except speech_recognition.RequestError as e:
        pass
    finally:
        return (None, pyaudio.paContinue)

では、以下で簡単にですが、speech_recognitionの使い方を記載しておきます。

speech_recognitionでは、まず認識を行う対象のAudioDataインスタンスを生成し、それを認識用のAPIで認識させます。

AudioDataインスタンスの生成は、speech_recognition.AudioDataで処理を行います。
これは、第1引数にAudioデータ(bytes)、第2引数にサンプリングレート、第3引数にサンプルサイズ(データのサイズ)を指定すれば、インスタンスを返してくれます。

あとは認識処理ですが、こちらはsprec.recognize_googleで処理を行います。
第1引数には先ほど生成したAudioDataインスタンス第2引数には言語を指定しています。
注意点
sprec.recognize_googleAPIは、音声データがないデータを入力すると、エラーで返すようです。
ですので、今回はtry-exceptで、エラーとなった場合に処理しないようにしてあります。

Waveファイルの音声文字起こしをしたいって方は、以下で記事にしていますのでこちらを見てみて下さい。

Pythonで簡単音声認識！SpeechRecognitionを使った文字起こし方法

PythonのSpeechRecognitionライブラリを使って、マイク入力の音声をテキストに変換する方法を解説します。音声認識の基本から、コード例、実行結果まで、初心者でも分かりやすく説明します。

後処理

最後は後処理です。
最後は、動作状態にしてるStreamの停止処理と今回生成したインスタンス類の破棄をして終了です。
※といっても今のプログラムでは、強制終了しか落とせないので、ここまでこないですが。。。

    stream.stop_stream()
    stream.close()
    audio.terminate()

まとめ

今回は、リアルタイムでのマイク入力音声の文字起こしに挑戦してみましたがいかがだっでしょうか？
実は、今回は簡単にできるだろうと思ってはじめたんですが、注意点で記載した音声入力がないデータをいれるとエラーとなることを知らなかったために、エラーの原因が分からずかなり苦戦しました。
分かってしまえば実に簡単なことで拍子抜けしましたが・・・

あと一点このプログラムには問題があります。
今の処理では、音声の入力タイミングが分からず、ライブラリに渡すデータの音声が途切れるタイミングが出てきて、正しく認識してくれない時があります。
これの解決方法がわかっていませんので、ぜひみなさんで今回の記事を参考に考えてみてください。

おすすめのPython学習本を知りたい場合はこちら

Amazonで買える！Python学習本おすすめ8選【2025年版】

にいやん

出身 : 関西居住区 : 関西職業 : 組み込み機器エンジニア (エンジニア歴13年) 年齢 : 38歳(2022年11月現在) 最近業務の効率化で噂もありPython言語に興味を持ち勉強しています。そこで学んだことを記事にして皆さんとシェアさせていただければと思いブログをはじめました！！興味ある記事があれば皆さん見ていってください！！にほんブログ村

Next Google AdSense合格までの道のり - 34回の不合格から掴んだ成功体験 »

Previous « Pythonで正弦波を生成して音を出す方法：PyaudioとNumpyを使った音声出力の解説

【2026年】Amazon初売りで買うべき目玉商品＆おすすめ福袋まとめ！1月3日スタート

あけましておめでとうございます…

42分 ago

雑記

【Rust最大の壁を乗り越えろ！】所有権と借用を徹底解説！安全なメモリ管理の仕組み

前回は、Rustのプロジェクト…

3日 ago

雑記

雑記

nubia Flip2の2回目の修理体験談｜ワイモバイルとZTEサポート対応が酷すぎた話

ZTEの「nubia Flip…

3週間 ago

Pythonでリアルタイム音声文字起こし！SpeechRecognitionとPyAudioを使った方法

使用ライブラリ

プログラムと実行結果

プログラム解説

speech_recognitionのRecognizerインスタンスを取得

PyAudioインスタンスを取得してマイク入力状態にする

文字起こし処理(PyAudioのコールバックによる処理)

後処理

まとめ

Recent Posts

【2026年】Amazon初売りで買うべき目玉商品＆おすすめ福袋まとめ！1月3日スタート

【Rust最大の壁を乗り越えろ！】所有権と借用を徹底解説！安全なメモリ管理の仕組み

【2025-2026】Amazonで買うべき「冬のあったか神グッズ」9選！充電式カイロから省エネ暖房まで徹底比較

【Rust入門】基本作法を学ぶ！Cargoの正体と「変更できない変数」の謎

【Windows 11】Intel N100搭載PCで始める「Rust」入門！環境構築からHello Worldまで

nubia Flip2の2回目の修理体験談｜ワイモバイルとZTEサポート対応が酷すぎた話

Pythonでリアルタイム音声文字起こし！SpeechRecognitionとPyAudioを使った方法

使用ライブラリ

プログラムと実行結果

プログラム解説

speech_recognitionのRecognizerインスタンスを取得

PyAudioインスタンスを取得してマイク入力状態にする

文字起こし処理(PyAudioのコールバックによる処理)

後処理

まとめ

Related Post

Recent Posts

【2026年】Amazon初売りで買うべき目玉商品＆おすすめ福袋まとめ！1月3日スタート

【Rust最大の壁を乗り越えろ！】所有権と借用を徹底解説！安全なメモリ管理の仕組み

【2025-2026】Amazonで買うべき「冬のあったか神グッズ」9選！充電式カイロから省エネ暖房まで徹底比較

【Rust入門】基本作法を学ぶ！Cargoの正体と「変更できない変数」の謎

【Windows 11】Intel N100搭載PCで始める「Rust」入門！環境構築からHello Worldまで

nubia Flip2の2回目の修理体験談｜ワイモバイルとZTEサポート対応が酷すぎた話