動画の解説を参照
情報の量を具体的な数値で表すものとして
情報量が使われます。
情報量は、ある
事象 (出来事) の結果を知ることで増える量であり、以下の性質を持ちます。
- 起こりにくいものについての情報量の方が、起こりやすいものよりも大きい
- 無関係な2つの事象の結果を両方知って得られる情報量は、それぞれ知ったことによって増えた情報量を足したものになる (情報の加法性)
確率 \(p\) で起こる事象の情報量 \(I(p)\) を
\(I(p) = -K\log_2 p \cdots(1)\)
と定義すれば、この2つの性質を満たすものになります。
\(\log_2 p\) は \(p\) の単調増加関数で、\(p=1\) で 0 になります。
そのため、これに \(-1\) をかけたものは \(p\) の単調減少関数で、\(p=1\) で 0 になります。
さらに正の定数 \(K\) をかけてもこの傾向は同じです。つまり、これで1番目の性質が満たされます。
一方、対数は以下の性質を持ちます。
\(a, b, c\) が正の数のとき、以下の関係が常に成り立つ。
- \(\log_a1=0\)
- \(\log_aa=1\)
- \(\log_ab^c = c\log_a b\)
- \(\log_ab =\)\(\Large{\frac{\log_cb}{\log_ca}}\)
- \(\log_a\left(bc\right) = \log_ab + \log_ac\)
この性質を使えば2番目の性質も成り立つことが確認できます。
無関係な2つの事象 \(x, y\) が起こる確率を \(p_x, p_y\) とすると、\(x\) と \(y\) が両方とも起こる確率は単純にそれらをかけた \(p_xp_y\)
になるので、「両方とも起こる」という事象に関わる情報量は
\(I(p_xp_y)=-K\log_2 (p_xp_y)\)
となります。
5番目の式で \(a\) → \(2\)、\(b\) → \(p_x\)、\(c\) → \(p_y\) と置き換えれば、
\(\log_2(p_xp_y)=\log_2p_x+\log_2p_y\)
になるので、
\(I(p_xp_y)=-K\log_2p_x-K\log_2p_y\)
となります。
\(x\) に関わる情報量は \(I(p_x)=-K\log_2 p_x\)
\(y\) に関わる情報量は \(I(p_y)=-K\log_2 p_y\)
なので、結局
\(I(p_xp_y)=I(p_x)+I(p_y)\)
となり、2つ目の条件が満たされます。このように
\(K\) が正の値であれば本質的な違いはなく、どんな値を設定しても最初に定義した2つの性質を満たすのでそれを情報量としても構わないですが、一般に情報理論では (1)式で \(K=1\) とした形
\(I(p) = -\log_2p \cdots(2)\)
を情報量の定義とします。この場合の情報量の単位は
ビット (bit)です。
この授業では今後特に断り書きがない限り「情報量」といった場合はこの定義を指します。この場合対数の底は常に2なので、一般的な情報理論の慣例に従い、それを省略して
\(I(p) = -\log p \cdots(3)\)
のように書きます。
\(K=\)\(\Large{\frac{1}{\log_2e}}\) とすると (1)式に対数の性質の4番目を使えば
\(I(p) =\)\(-\Large{\frac{\log_2p}{\log_2e}}\)
\(=-\log_ep\)
のような形になります。この場合の情報量の単位はナット (nat)です (語源は自然対数 natural
logarithm)。
\(e\) はネイピア数、または「自然対数の
底
」と呼ばれるもので、具体的な値は2.718...です。
ちなみに、物理学の分野では「対数」といえば「自然対数」を指すことが多いです (「ナット」がよく使われるわけではありませんが)。
関数電卓の「ln」のボタンがこの「自然対数」の計算にあたります。
\(K=\)\(\Large{\frac{1}{\log_{10}e}}\) とすると (1)式に対数の性質の4番目を使えば
\(I(p) =\)\(-\Large{\frac{\log_2p}{\log_210}}\)
\(=-\log_{10}p\)
のような形になります。この場合の情報量の単位はデシット(decit) です
(語源はdecimal(10進数の) unit(単位))。
ちなみに、工業系の分野では「対数」といえば「常用対数」を指すことが多いです (「デシット」がよく使われるわけではありませんが)。
電卓でも普通に「log」の関数を計算しようとするとだいたいこの「常用対数」になります。
| 情報量の定義 |
単位 |
| \(I(p) = -\log_2p\) |
ビット (bit) |
| \(I(p) = -\log_ep\) |
ナット (nat) |
| \(I(p) = -\log_{10}p\) |
デシット (decit) |
※ iPhoneの標準の電卓アプリだと常用対数しか計算できませんが、「真・関数電卓」(
App
Store、
Google
Play)では
底の値を指定して対数を計算できます。
※ Excelで底の値を指定して対数を計算するときは第2引数として底を入れます。例えば \(\log_25\) は「=LOG(5, 2)」で計算できます。
※ 準備 : 学籍番号を入れて「入力」をクリック (タップ) してください。
事象Aが起こる確率が
、事象Bが起こる確率が
であるとき、それぞれに対応する情報量を求めてください。
また、事象Aと事象Bが両方とも起こるという事象に対応する情報量を求めてください。
いずれも情報量の定義は概要の (2)式のものとし、四捨五入して小数第2位までにしてください。
※ 動画の例なら、「真・関数電卓」ではこのように (
1,
2,
3
)、Excelならこのように (
1,
2,
3
) 入力すれば結果が得られます。
課題1ヒント
「正十二面体のサイコロを振り、1~
の目が出た」という事象に対応する情報量を求めてください。
情報量の定義は概要の (2)式のものとし、四捨五入して小数第2位までにしてください。
※ 問題文が正しく表示されていない場合は課題1で学籍番号を入力して「入力」をクリック (タップ) してください。
※ 動画の例なら、「真・関数電卓」
では
このように、
Excelなら
このように入力すれば結果が得られます。
課題2ヒント
4枚のコインを振ったときの結果について、「すべて表」「表が3枚」「表が2枚」「表が1枚」「すべて裏」という事象についての情報量を求め、表を完成させてください。
計算過程も書いてください。結果が整数にならない場合は四捨五入して小数第2位までにしてください。
| 事象 |
情報量 (bit) |
| すべて表 |
4 |
| 表が3枚 |
|
| 表が2枚 |
|
| 表が1枚 |
|
| すべて裏 |
4 |
課題3ヒント
動画の解説を参照
一般的には情報量は課題1の結果のように整数でない値になりますが、特別なケースでは整数の値をとります。
例えば偏りのないコインを1枚投げたとき、「表が出た」という事象、「裏が出た」という事象を考えると、どちらになる確率も1/2になります。
すると、これらの事象に関わる情報量はどちらも
\(I(\frac{1}{2})\)
\(=-\log_2(\frac{1}{2})\)
\(=-\log_2(2^{-1})\)
\(=-(-\log_2(2))\)
\(=\log_2(2)\)
\(=1\) (bit)
となります (3行目から4行目では対数の性質の3番目の性質、4行目から5行目では対数の2番目の性質を使っています)。
要するに、コイン1枚を投げた結果を知ることで得られる情報量は1bitになります。
コインを2枚同時に投げると、ありうる事象は「表表」「表裏」「裏表」「裏裏」の4通りで、これらが起こる確率はどれも1/4です。
それらに関わる情報量はどれも
\(I(\frac{1}{4})\)
\(=-\log_2(\frac{1}{4})\)
\(=-\log_2(2^{-2})\)
\(=-(-2\log_2(2))\)
\(=2\log_2(2)\)
\(=2\) (bit)
です。つまり、コイン2枚を投げた結果を知ることで得られる情報量は2bitになります。
1枚目と2枚目のコインの結果は無関係なので、情報量の性質の2番目「無関係な2つの事象の結果を両方知って得られる情報量は、
それぞれ知ったことによって増えた情報量を足したものになる (情報の加法性)」からもこの結果が得られます。
つまり、1枚目の結果を知ることで1bit、さらに2枚目の結果を知ることで1bitの情報量が得られるので、トータルで2bitの情報量が得られるということです。
同様にに考えれば、コインの枚数が増えても情報量は簡単にわかります。要するにコインの枚数がそのまま情報量と同じ値になります。
課題3の「すべて表」「すべて裏」が4bitなのもそれでわかります。