デジタル音声とは？仕組みから用語まで初心者向け解説

技術

2021.11.112024.12.03

この記事は約3分で読めます。

スマートフォンやテレビ、音楽ストリーミングサービスなど、私たちの生活にはデジタル音声があふれています。しかし、デジタル音声とは一体どんなものなのでしょうか？本記事では、デジタル音声がどのように作られ、どのような仕組みで再生されるのか、初心者の方にも分かりやすく解説していきます。

音声のデジタル化：標本化と量子化
標本化・サンプリング
量子化
デジタル音声用語解説
まとめ

音声のデジタル化：標本化と量子化

デジタル音声とは、実際に私たちの耳で聞いているものをデジタルデータで表現したものです。
音とは、空気の振動によって発生した波が私たちの耳に伝わって音して聞こえています。

デジタル音声は、現実の音声をデジタルデータに変換したものです。この変換には、標本化と量子化という2つのプロセスが用いられます。

標本化・サンプリング

標本化とは、連続した音声信号を一定間隔でサンプリングし、その時点の音声データを取得することです。このサンプリング間隔はサンプリング周波数と呼ばれ、単位はHz（ヘルツ）です。サンプリング周波数が高いほど、より細かく音声信号を捉えることができ、高音質になります。

以下はサンプリングしたデータを元の波に戻そうとする流れです。
この点が多いほど、元の波形に近づかせれるので、再現度が高くなります
ただし再現度は上がりますが、データ量が増えますし処理の回数も増えることになります。

量子化

量子化とは、標本化によって得られた音声データを、デジタルデータに変換することです。音声データの振幅（大きさ）を、あらかじめ決められた段階（レベル）に量子化します。量子化の段階が多いほど、より細かく音声データを表現でき、高音質になります。

先ほどのポイントだけ示した画像はX軸として時間だけ表現していましたが、Y軸に値を設定します。
今回は、最小値が-3 最大値が3として設定しました。

これで、デジタルデータとして表現できます。
今回の場合、-3->0->3->0->-3 ->0->3->0->-3 という風なデータになります。

この波の縦軸に数値を設定し、データ化ができるようにすることを量子化といいます。
最大値と最小値の幅を大きくすればするほど、表現できる幅が広がり細かく値を設定できるので、音がより表現できるようになります。
※ただし、こちらも値を大きくすればするだけ表現の幅は広がりますが、データが大きくなったり扱えないデータ長さになる弊害があります。

このように標本化と量子化を行うことでデジタル音声データは生成されます。