追加解説

\( \begin{eqnarray} &&I(Y,X)\\ =&&p\log p+(1-p)\log(1-p)\\ &&-(p+\alpha-2\alpha p)\log(p+\alpha-2\alpha p)\\ &&-(1-p-\alpha+2\alpha p)\log(1-p-\alpha+2\alpha p)\cdots(7) \end{eqnarray} \)
を \(\alpha\) で偏微分すると、第1項と第2項は \(\alpha\) に依存しないので消える。

\(f\equiv p+\alpha-2\alpha p\)
\(g\equiv 1-p-\alpha+2\alpha p\)

と定義すれば、それを \(\alpha\) で偏微分したものは
\(\frac{\partial f}{\partial\alpha}=1-2p\)
\(\frac{\partial g}{\partial\alpha}=-(1-2p)\)

となる。これを使うと、相互情報量の \(\alpha\) による偏微分は
\( \begin{eqnarray} &&\frac{\partial I(Y,X)}{\partial\alpha}\\ =&&-\frac{\partial}{\partial\alpha}(f\log_2 f+g\log_2g)\\ =&&-\frac{1}{log_e2}\frac{\partial}{\partial\alpha}(f\log_ef+g\log_eg)\\ =&&-\frac{1}{log_e2}\left[\frac{\partial f}{\partial\alpha}log_ef+f\frac{\partial}{\partial\alpha}log_ef +\frac{\partial g}{\partial\alpha}log_eg+g\frac{\partial}{\partial\alpha}log_eg \right]\\ =&&-\frac{1}{log_e2}\left[\frac{\partial f}{\partial\alpha}log_ef+f\frac{\partial f}{\partial\alpha}\frac{1}{f} +\frac{\partial g}{\partial\alpha}log_eg+g\frac{\partial g}{\partial\alpha}\frac{1}{g} \right]\\ =&&-\frac{1}{log_e2}\left[\frac{\partial f}{\partial\alpha}log_ef+\frac{\partial f}{\partial\alpha} +\frac{\partial g}{\partial\alpha}log_eg+\frac{\partial g}{\partial\alpha} \right]\\ =&&-\frac{1}{log_e2}(1-2p)\left[log_ef+1-log_eg-1\right]\\ =&&-\frac{1}{log_e2}(1-2p)\left[log_ef-log_eg\right]\\ =&&-(1-2p)\left[log_2f-log_2g\right]\\ \end{eqnarray} \)

となる。相互情報量が最大になるのは、これが0になるとき、つまり
\(f=g\)
のときである。