第1回 情報量

ガイダンスの動画を参照

情報量の定義

概要

動画の解説を参照

情報の量を具体的な数値で表すものとして情報量が使われます。
情報量は、ある事象 (出来事) の結果を知ることで増える量であり、以下の性質を持ちます。

  1. 起こりにくいものについての情報量の方が、起こりやすいものよりも大きい
  2. 無関係な2つの事象の結果を両方知って得られる情報量は、それぞれ知ったことによって増えた情報量を足したものになる (情報の加法性)

確率 \(p\) で起こる事象の情報量 \(I(p)\) を

\(I(p) = -K\log_2 p \cdots(1)\)

と定義すれば、この2つの性質を満たすものになります。

\(\log_2 p\) は \(p\) の単調増加関数で、\(p=1\) で 0 になります。

そのため、これに \(-1\) をかけたものは \(p\) の単調減少関数で、\(p=1\) で 0 になります。 さらに正の定数 \(K\) をかけてもこの傾向は同じです。つまり、これで1番目の性質が満たされます。

一方、対数は以下の性質を持ちます。
\(a, b, c\) が正の数のとき、以下の関係が常に成り立つ。
  1. \(\log_a1=0\)
  2. \(\log_aa=1\)
  3. \(\log_ab^c = c\log_a b\)

  4. \(\log_ab =\)\(\Large{\frac{\log_cb}{\log_ca}}\)

  5. \(\log_a\left(bc\right) = \log_ab + \log_ac\)
この性質を使えば2番目の性質も成り立つことが確認できます。
無関係な2つの事象 \(x, y\) が起こる確率を \(p_x, p_y\) とすると、\(x\) と \(y\) が両方とも起こる確率は単純にそれらをかけた \(p_xp_y\) になるので、「両方とも起こる」という事象に関わる情報量は

\(I(p_xp_y)=-K\log_2 (p_xp_y)\)

となります。 5番目の式で \(a\) → \(2\)、\(b\) → \(p_x\)、\(c\) → \(p_y\) と置き換えれば、

\(\log_2(p_xp_y)=\log_2p_x+\log_2p_y\)

になるので、

\(I(p_xp_y)=-K\log_2p_x-K\log_2p_y\)

となります。

\(x\) に関わる情報量は \(I(p_x)=-K\log_2 p_x\)
\(y\) に関わる情報量は \(I(p_y)=-K\log_2 p_y\)

なので、結局 \(I(p_xp_y)=I(p_x)+I(p_y)\)

となり、2つ目の条件が満たされます。このように \(K\) が正の値であれば本質的な違いはなく、どんな値を設定しても最初に定義した2つの性質を満たすのでそれを情報量としても構わないですが、一般に情報理論では (1)式で \(K=1\) とした形

\(I(p) = -\log_2p \cdots(2)\)

を情報量の定義とします。この場合の情報量の単位はビット (bit)です。
この授業では今後特に断り書きがない限り「情報量」といった場合はこの定義を指します。この場合対数の底は常に2なので、一般的な情報理論の慣例に従い、それを省略して

\(I(p) = -\log p \cdots(3)\)

のように書きます。

\(K=\)\(\Large{\frac{1}{\log_2e}}\) とすると (1)式に対数の性質の4番目を使えば

\(I(p) =\)\(-\Large{\frac{\log_2p}{\log_2e}}\) \(=-\log_ep\)

のような形になります。この場合の情報量の単位はナット (nat)です (語源は自然対数 natural logarithm)。
\(e\) はネイピア数、または「自然対数の ( てい ) 」と呼ばれるもので、具体的な値は2.718...です。
ちなみに、物理学の分野では「対数」といえば「自然対数」を指すことが多いです (「ナット」がよく使われるわけではありませんが)。
関数電卓の「ln」のボタンがこの「自然対数」の計算にあたります。
\(K=\)\(\Large{\frac{1}{\log_{10}e}}\) とすると (1)式に対数の性質の4番目を使えば

\(I(p) =\)\(-\Large{\frac{\log_2p}{\log_210}}\) \(=-\log_{10}p\)

のような形になります。この場合の情報量の単位はデシット(decit) です (語源はdecimal(10進数の) unit(単位))。
ちなみに、工業系の分野では「対数」といえば「常用対数」を指すことが多いです (「デシット」がよく使われるわけではありませんが)。
電卓でも普通に「log」の関数を計算しようとするとだいたいこの「常用対数」になります。
情報量の定義 単位
\(I(p) = -\log_2p\) ビット (bit)
\(I(p) = -\log_ep\) ナット (nat)
\(I(p) = -\log_{10}p\) デシット (decit)
※ iPhoneの標準の電卓アプリだと常用対数しか計算できませんが、「真・関数電卓」(App StoreGoogle Play)では底の値を指定して対数を計算できます。
※ Excelで底の値を指定して対数を計算するときは第2引数として底を入れます。例えば \(\log_25\) は「=LOG(5, 2)」で計算できます。

課題1

※ 準備 : 学籍番号を入れて「入力」をクリック (タップ) してください。


事象Aが起こる確率が 、事象Bが起こる確率が であるとき、それぞれに対応する情報量を求めてください。
また、事象Aと事象Bが両方とも起こるという事象に対応する情報量を求めてください。
いずれも情報量の定義は概要の (2)式のものとし、四捨五入して小数第2位までにしてください。

※ 動画の例なら、「真・関数電卓」ではこのように ( 1, 2, 3 )、Excelならこのように ( 1, 2, 3 ) 入力すれば結果が得られます。

課題1ヒント

課題2

「正十二面体のサイコロを振り、1~ の目が出た」という事象に対応する情報量を求めてください。
情報量の定義は概要の (2)式のものとし、四捨五入して小数第2位までにしてください。

※ 問題文が正しく表示されていない場合は課題1で学籍番号を入力して「入力」をクリック (タップ) してください。
※ 動画の例なら、「真・関数電卓」 ではこのように、 Excelならこのように入力すれば結果が得られます。

課題2ヒント

課題3

4枚のコインを振ったときの結果について、「すべて表」「表が3枚」「表が2枚」「表が1枚」「すべて裏」という事象についての情報量を求め、表を完成させてください。
計算過程も書いてください。結果が整数にならない場合は四捨五入して小数第2位までにしてください。
事象 情報量 (bit)
すべて表 4
表が3枚
表が2枚
表が1枚
すべて裏 4

課題3ヒント

情報量の意味

概要

動画の解説を参照

一般的には情報量は課題1の結果のように整数でない値になりますが、特別なケースでは整数の値をとります。
例えば偏りのないコインを1枚投げたとき、「表が出た」という事象、「裏が出た」という事象を考えると、どちらになる確率も1/2になります。
すると、これらの事象に関わる情報量はどちらも

\(I(\frac{1}{2})\)
\(=-\log_2(\frac{1}{2})\)
\(=-\log_2(2^{-1})\)
\(=-(-\log_2(2))\)
\(=\log_2(2)\)
\(=1\) (bit)

となります (3行目から4行目では対数の性質の3番目の性質、4行目から5行目では対数の2番目の性質を使っています)。
要するに、コイン1枚を投げた結果を知ることで得られる情報量は1bitになります。

コインを2枚同時に投げると、ありうる事象は「表表」「表裏」「裏表」「裏裏」の4通りで、これらが起こる確率はどれも1/4です。
それらに関わる情報量はどれも

\(I(\frac{1}{4})\)
\(=-\log_2(\frac{1}{4})\)
\(=-\log_2(2^{-2})\)
\(=-(-2\log_2(2))\)
\(=2\log_2(2)\)
\(=2\) (bit)

です。つまり、コイン2枚を投げた結果を知ることで得られる情報量は2bitになります。

1枚目と2枚目のコインの結果は無関係なので、情報量の性質の2番目「無関係な2つの事象の結果を両方知って得られる情報量は、 それぞれ知ったことによって増えた情報量を足したものになる (情報の加法性)」からもこの結果が得られます。
つまり、1枚目の結果を知ることで1bit、さらに2枚目の結果を知ることで1bitの情報量が得られるので、トータルで2bitの情報量が得られるということです。

同様にに考えれば、コインの枚数が増えても情報量は簡単にわかります。要するにコインの枚数がそのまま情報量と同じ値になります。
課題3の「すべて表」「すべて裏」が4bitなのもそれでわかります。

課題

課題解答