スマートフォンやテレビ、音楽ストリーミングサービスなど、私たちの生活にはデジタル音声があふれています。しかし、デジタル音声とは一体どんなものなのでしょうか?本記事では、デジタル音声がどのように作られ、どの ような仕組みで再生されるのか、初心者の方にも分かりやすく解説していきます。
音声のデジタル化:標本化と量子化
デジタル音声とは、実際に私たちの耳で聞いているものをデジタルデータで表現したものです。
音とは、空気の振動によって発生した波が私たちの耳に伝わって音して聞こえています。
デジタル音声は、現実の音声をデジタルデータに変換したものです。この変換には、標本化と量子化という2つのプロセスが用いられます。
標本化・サンプリング
標本化とは、連続した音声信号を一定間隔でサンプリングし、その時点の音声データを取得することです。このサンプリング間隔はサンプリング周波数と呼ばれ、単位はHz(ヘルツ)です。サンプリング周波数が高いほど、 より細かく音声信号を捉えることができ、高音質になります。
以下はサンプリングしたデータを元の波に戻そうとする流れです。
この点が多いほど、元の波形に近づかせれるので、再現度が高くなります
ただし再現度は上がりますが、データ量が増えますし処理の回数も増えることになります。
量子化
量子化とは、標本化によって得られた音声データを、デジタルデータに変換することです。音声データの振幅(大きさ)を、あらかじめ決められた段階(レベル)に量子化します。量子化の段階が多いほど、より細かく音声デー タを表現でき、高音質になります。
先ほどのポイントだけ示した画像はX軸として時間だけ表現していましたが、Y軸に値を設定します。
今回は、最小値が-3 最大値が3として設定しました。
これで、デジタルデータとして表現できます。
今回の場合、-3->0->3->0->-3 ->0->3->0->-3 という風なデータになります。
この波の縦軸に数値を設定し、データ化ができるようにすることを量子化といいます。
最大値と最小値の幅を大きくすればするほど、表現できる幅が広がり細かく値を設定できるので、音がより表現できるようになります。
※ただし、こちらも値を大きくすればするだけ表現の幅は広がりますが、データが大きくなったり扱えないデータ長さになる弊害があります。
このように標本化と量子化を行うことでデジタル音声データは生成されます。
デジタル音声 用語解説
ここからはデジタル音声に関する用語を理解することで、より深くデジタル音声について知ることができます。
(1) サンプリング周波数:
サンプリング周波数は、1秒間に何回サンプリングを行うかを表す数値です。単位はHzです。サンプリング周波数が高いほど、より高音質になります。
- CD: 44.1kHz
- DVD: 48kHz
- ハイレゾ音源: 88.2kHz、96kHz、192kHzなど
(2) ビット幅・ビット深度:
ビット幅は、1つのサンプルを表現するために用いるビット数です。ビット幅が大きいほど、より細かく音声データを表現でき、高音質になります。
- CD: 16bit
- ハイレゾ音源: 24bit以上
3. デジタル音声が使われている例
デジタル音声は、私たちの生活の様々な場面で使われています。
音声アシスタント: Siri、Googleアシスタント、Alexaなど
音楽ストリーミングサービス: Spotify、Apple Music、Amazon Musicなど
音声通話アプリ: LINE、Skype、Zoomなど
まとめ
本記事では、デジタル音声の仕組みや用語について解説しました。デジタル音声は、私たちの生活に欠かせない技術となっています。この記事が、デジタル音声について理解を深める一助となれば幸いです。
コメント