一つの事象が起こったことを知ることによって増える情報の量のことを情報量と呼び、その確率が \(p\) の場合は
\(I(p)=-\log p\)
で求められる。ただし、この場合の対数の底は 2 であり、特別なことがない限り省略して表記する。
事象系とは、すべての事象 (出来事) とそれが起こる確率をまとめたもの。例えば
\(x_0\) : 符号0が発生する
\(x_1\) : 符号1が発生する
という2つの事象が起こる確率がどちらも1/2だとすると、これらからなる事象系 \(X_1\) はこのようになる。
\(
X_1=
\begin{bmatrix}
x_0 & x_1\cr
\frac{1}{2} & \frac{1}{2}
\end{bmatrix}
\)
事象系はすべての事象を網羅して、欠け・重複がないものでなければならない。
例えば4面体のサイコロを振った結果から事象系を作る場合は
○『1が出た』『2が出た』『3が出た』『4が出た』という4つの事象
×『1が出た』『2が出た』『3が出た』という事象 (『4が出た』が欠けている)
×『2以下が出た』『2以上が出た』という事象 (『2が出た』がどちらにも含まれている)
上記のことから、事象系に含まれるすべて事象の確率を加えると必ず1になる。
事象系では、定義上すべての事象が起こる確率がわかっている。そのため、それぞれに対応する情報量も計算できる。
\(n\) 個の事象をもつ事象系は一般的に
\(
X=
\begin{bmatrix}
x_1 & x_2 & … & x_n\cr
p_1 & p_2 & … & p_n
\end{bmatrix}
\)
のように書ける。事象系全体での情報量の平均値は (確率)×(情報量) を足しあげれば求められるので、以下のような形になる。
\(
\displaystyle \sum_{i=1}^n p_iI\left(p_i\right)
\)
一方、\(x_i\) に対応する情報量は、\(I(p_i) = -\log p_i\) なので、この平均値は以下のように書ける。
\(
\displaystyle \sum_{i=1}^n p_i\left(-\log p_i\right)
\)
この量のことを
エントロピーと呼び、記号 \(H\) を使って表す。これが事象系 \(X\) の性質を表すことを明示するため、 \(H(X)\) のように書くこともある。
\(
H(X) = -\displaystyle \sum_{i=1}^n p_i\log p_i
\)
「事象系」の項目で出てきた例 \(X_1\) では0, 1の発生する確率が1/2なので
\(
\begin{eqnarray}
H(X_1)
&=& -\displaystyle \sum_{i=0}^1 p_i\log p_i\cr
&=& \frac{1}{2}\log2+\frac{1}{2}\log2\cr
&=& \frac{1}{2}+\frac{1}{2}\cr
&=& 1 (ビット)
\end{eqnarray}
\)
となる。
一方、0の方が1より多く発生する
\(
X_2=
\begin{bmatrix}
x_0 & x_1\cr
0.7 & 0.3
\end{bmatrix}
\)
という事象系では、
\(
\begin{eqnarray}
H(X_2)
&=& -0.7\times\log0.7-0.3\times\log0.3\\
&=& 0.881...\\
&≒& 0.88 (ビット)
\end{eqnarray}
\)
(電卓アプリで「-0.7×log2(0.7)-0.3×log2(0.3)」のように入力すれば正確に求められる)
のようになる。
事象系の事象が発生する確率の総和は1になるので、\(X_1\) や \(X_2\) のような2つの事象からなる事象系は一般に
\(
X(p)=
\begin{bmatrix}
x_0 & x_1\\
p & 1-p
\end{bmatrix}
\)
のように書ける (\(X(p)\) の \((p)\) は、事象系が \(p\) の関数であることを表わす)。このような事象系のエントロピー \(H(X(p))\) を縦軸に、\(p\)
を横軸にとったグラフは図1のようになる。
|
|
図1 |
実はエントロピーには「結果を知る前の時点で、未確定の情報がどれくらいあるか」という意味もある。
0, 1が出る確率が同じ事象系 \(X_1\) と、0の方が出やすい事象系 \(X_2\) のエントロピーの値を比べると \(H(X_1)>H(X_2)\) で、これは \(X_1\) のほうが
(結果の予想がつけやすいので) 未確定の情報が少ないためと解釈できる。
\(p=0.5\) では未確定の情報が最も多い。一方、\(p=0\) では確実に1が出て、\(p=1\)
では確実に0が出る。この2つのケースでははじめから結果がわかっているので未確定な情報はまったくないため、エントロピーは0になる。
以下の事象系のエントロピー \(H(X_3)\) を求めよ。ただし、「概要」の説明の \(H(X_2)\)
を求める過程と同様に、総和を書き下した形、無限小数を「...」で表わした形を導出過程に含め、最終結果は四捨五入して小数第二位までにすること。
\(
X_3=
\begin{bmatrix}
x_0 & x_1\cr
0.8 & 0.2
\end{bmatrix}
\)
以下の事象系のエントロピー \(H(X_4)\) を求めよ。ただし、総和を書き下した形、無限小数を「...」で表わした形を導出過程に含め、最終結果は四捨五入して小数第二位までにすること。
\(
X_4=
\begin{bmatrix}
x_0 & x_1\cr
0.9 & 0.1
\end{bmatrix}
\)
\(H(X_1)\) ~ \(H(X_4)\) は図1でいうと \(p\) が0.5~0.9のところでの曲線の縦の座標にあたる。
右半分では単調減少なので、\(H(X_1)>H(X_2)>H(X_3)>H(X_4)\) になるはず。
以下の事象系のエントロピー \(H(Y_1)\) を求めよ。ただし、総和を書き下した形、無限小数を「...」で表わした形を導出過程に含め、最終結果は四捨五入して小数第二位までにすること。
\(
Y_1=
\begin{bmatrix}
y_0 & y_1 &y_2\\
\frac{1}{3} & \frac{1}{3} & \frac{1}{3}
\end{bmatrix}
\)
事象が3つあるがやることは課題1, 課題2と同じ。それぞれの事象について確率と情報量をかけてマイナスをつけたものを3つ足すだけ。
3つの事象の発生確率が同じなので、式を変形すれば計算が少し楽になる。
以下の事象系のエントロピー \(H(Y_2)\) を求めよ。ただし、総和を書き下した形、無限小数を「...」で表わした形を導出過程に含め、最終結果は四捨五入して小数第二位までにすること。
\(
Y_2=
\begin{bmatrix}
y_0 & y_1 &y_2\\
0.5 & 0.3 & 0.2
\end{bmatrix}
\)
これも途中段階の値を求めずに、電卓アプリに式を一気に入れた方が正確な値になる。
課題3, 課題4の結果を比較すると \(H(Y_1)>H(Y_2)\) になる。
これもエントロピーの大きさが「結果を知る前の時点で、未確定の情報がどれくらいあるか」であることを考えると理屈に合う。
ノート・紙に解いた課題を撮影したものを以下のフォームから送信してください。
課題提出用フォーム
※ 締切は9/21(土) 正午です。提出によって出席・点数がつきます。