一つの事象が起こったことを知ることによって増える情報の量のことを情報量と呼び、その確率が \(p\) の場合は
\(I(p)=-\log p\)
と定義されます。ただし、この場合の対数の底は 2 であり、特別なことがない限り省略して表記します。
動画の解説を参照
事象系とは、すべての事象 (出来事) とそれが起こる確率をまとめたものです。例えばコインを投げて
\(x_1\) : 表が出る
\(x_2\) : 裏が出る
という2つの事象を考えれば、これらからなる事象系 \(X\) はこのようになります。
左辺は事象系を表す文字で、事象を表す文字と同じアルファベットの大文字を書きます。
右辺は行列のような形で、角カッコで囲み、上の行には事象名、下の行にはそれぞれが起こる確率を書きます。
\(
X=
\begin{bmatrix}
x_1 & x_2\cr
p_1 & p_2
\end{bmatrix}
\)
事象の数が多い場合でも考え方は同じです。\(n\) 個の事象をもつ事象系は以下のようになります。
\(
X=
\begin{bmatrix}
x_1 & x_2 & … & x_n\cr
p_1 & p_2 & … & p_n
\end{bmatrix}
\)
事象系はすべての事象を網羅して、欠け・重複がないものです。
例えば4面体のサイコロを振った結果から事象系を作る場合で考えるとこうなります。
○『1が出た』『2が出た』『3が出た』『4が出た』という4つの事象
×『1が出た』『2が出た』『3が出た』という事象 (『4が出た』が欠けている)
×『2以下が出た』『2以上が出た』という事象 (『2が出た』がどちらにも含まれている)
上記のことから、事象系に含まれるすべて事象の確率を加えると必ず1になります。
動画の解説を参照
事象系では、定義上すべての事象が起こる確率はわかっていることになります。そのため、それぞれに対応する情報量も計算できます。
事象系全体での情報量の平均値はそれに含まれるすべての事象について (確率)×(情報量) を足しあげれば求められるので、以下のような形になります。
\(
\displaystyle \sum_{i=1}^n p_iI\left(p_i\right)
\)
一方、\(x_i\) に対応する情報量は、\(I(p_i) = -\log p_i\) なので、この平均値は以下のように書けます。
\(
\displaystyle \sum_{i=1}^n p_i\left(-\log p_i\right)
\)
この量のことを
エントロピーと呼び、記号 \(H\) を使って表します。これが事象系 \(X\) の関数であること、つまり \(X\) によって決まるものであることを明示するため、 \(H(X)\)
のように書くこともあります。
\(
H(X) = -\displaystyle \sum_{i=1}^n p_i\log p_i
\)・・・(1)
動画の解説を参照
「事象系」の項目で出てきた \(X\) で、\(p_1=p_2=0.5\) のものを \(X_1\) と呼ぶことにします。
\(
X_1=
\begin{bmatrix}
x_1 & x_2\cr
0.5 & 0.5
\end{bmatrix}
\)
この事象系のエントロピーは (1) 式を使って
\(
\begin{eqnarray}
H(X_1)
&=& -\displaystyle \sum_{i=1}^2 p_i\log p_i\cr
&=& -0.5\log0.5-0.5\log0.5\cr
&=& 1 (bit)
\end{eqnarray}
\)
となります。
一方、0の方が1より多く発生する
\(
X_2=
\begin{bmatrix}
x_1 & x_2\cr
0.7 & 0.3
\end{bmatrix}
\)
という事象系では、
\(
\begin{eqnarray}
H(X_2)
&=& -0.7\log0.7-0.3\log0.3\\
&=& 0.881...\\
&≒& 0.88 (bit)
\end{eqnarray}
\)
のようになります (電卓アプリで「-0.7×log
2(0.7)-0.3×log
2(0.3)」のように入力すれば正確に求められます)。
事象系の事象が発生する確率の総和は1になるので、\(X_1\) や \(X_2\) のような2つの事象からなる事象系は一般に
\(
X(p)=
\begin{bmatrix}
x_1 & x_2\\
p & 1-p
\end{bmatrix}
\)・・・(2)
のように書けます (\(X(p)\) の \((p)\) は、事象系が \(p\) の関数であることを表します)。
このような事象系のエントロピー \(H(X(p))\) は
\(
H(X(p))= -p\log(p)-(1-p)\log(1-p)
\)・・・(3)
となり、グラフは以下のようになります。
実はエントロピーには「結果を知る前の時点で、未確定の情報がどれくらいあるか」という意味もあります。
0, 1が出る確率が同じ事象系 \(X_1\) と、0の方が出やすい事象系 \(X_2\) のエントロピーの値を比べると \(H(X_1)>H(X_2)\) で、これは \(X_1\) のほうが
(結果の予想がつけやすいので) 未確定の情報が少ないためと解釈できます。
\(p=0.5\) は未確定の情報が最も多い条件です。一方、\(p=0\) では確実に1が出て、\(p=1\)
では確実に0が出ます。この2つのケースでははじめから結果がわかっているので未確定な情報はまったくないため、エントロピーは 0 になります。
※ 準備 : 学籍番号を入れて「入力」をクリック (タップ) してください。
(2) のような事象系 \(H(X_3)\) で、\(p=\)
の場合のエントロピー \(H(X_3)\) を求めてください。ただし、「概要」の説明の \(H(X_2)\)
を求める過程と同様に、確率とその対数の総和を書き下した形、無限小数を「...」で表わした形を導出過程に含め、最終結果は四捨五入して小数第2位までにしてください。
課題1ヒント
(2) のような事象系 \(H(X_4)\) で、\(p=\)
の場合のエントロピー \(H(X_4)\)
を求めてください。ただし、確率とその対数の総和を書き下した形、無限小数を「...」で表わした形を導出過程に含め、最終結果は四捨五入して小数第2位までにしてください。
\(H(X_3)\), \(H(X_4)\) は概要の図でいうと \(p\) が0.5~0.99のところでの曲線の縦の座標にあたります。
右半分では単調減少なので、\(H(X_3)>H(X_4)\) になるはずです。
課題2ヒント
動画の解説を参照
事象の数が3つの事象系
\(
Y=
\begin{bmatrix}
y_1 & y_2 & y_3\cr
p_1 & p_2 & p_3
\end{bmatrix}
\)
のエントロピーも同様に考えることができます。(1)式を使えば以下のようになります。
\(H(Y) = -\displaystyle \sum_{i=1}^n p_i\log p_i\)
\(= -p_1\log p_1-p_2\log p_2-p_3\log p_3\)・・・(4)
3つの事象の発生確率が同じケース
\(
Y_1=
\begin{bmatrix}
y_1 & y_2 & y_3\cr
\frac{1}{3} & \frac{1}{3} & \frac{1}{3}
\end{bmatrix}
\)
では
\(H(Y_1)=-\frac{1}{3}\log(\frac{1}{3})\)
\(-\frac{1}{3}\log(\frac{1}{3})\)
\(-\frac{1}{3}\log(\frac{1}{3})\)
\(=\log3\)
\(=1.584...\)
\(≒1.58\) (bit)・・・(5)
となります。
事象の数が3つで、\(p_1=\)
で、\(p_2=p_3\) の事象系 \(Y_2\) のエントロピー \(H(Y_2)\)
を求めてください。ただし、確率と総和を書き下した形、無限小数を「...」で表わした形を導出過程に含め、最終結果は四捨五入して小数第2位までにしてください。
\(Y_1\) より確率が偏っているので、エントロピーの値は \(H(Y_1)\) より小さいはずです。
課題3ヒント
事象の数が3つで、\(p_1=\)
で、\(p_2=\)
の事象系 \(Y_3\) のエントロピー \(H(Y_3)\)
を求めてください。ただし、確率と総和を書き下した形、無限小数を「...」で表わした形を導出過程に含め、最終結果は四捨五入して小数第2位までにしてください。
\(Y_2\) より確率が偏っているので、エントロピーの値は \(H(Y_2)\) より小さいはずです。
課題4ヒント