最尤法について

書くまでもないかもしれないけど、最尤法について書いておきます。

最尤法とは

与えられたデータから、母数を推定する手法のこと。母数とは、その関数を特徴付けるパラメータのことで、xからyを求めるんじゃなくてyからaを求めるみたいなイメージ。

データが与えられて、適当に母数を当てはめて、それっぽい(尤もらしい)パラメータを推測する。それっぽい、つまり確率がもっとも高くなる母数を推定するということ。

やってみよう

A君がバスケのフリースローを50本中30本決めたとします。このときの確率はいくつか。ここでいう確率が母数で、50本中30本決めたというのがデータになります。
このときの尤度関数、つまり確率は以下の式によって求めることができる。


{L(p) = {}_{50} C _{30}p^{30}(1-p)^{20}}


これを最大にするようなpを求めます。対数をとるほうが計算しやすいので対数をとります。


{\log L(p) = 30\log p+20\log (1-p)+\log {}_{50} C _{30}}


微分して0を代入。


{\cfrac{d}{dp} \log L(p) = \cfrac{30}{p} + \cfrac{20}{1-p}}

{0 = \cfrac{30}{p} - \cfrac{20}{1-p}}

{p = 0.6}


となり、このときのもっともそれらしい確率は0.6になります。でもこの場合は、こんなことをしなくても最初から30割る50をすればすぐに求まりますね。


では次です。先程の問題では、確率の結果(分布)が、フリースローが入るか入らないかの2択で離散でした(ベルヌーイ試行)。これが連続値になると、確率の求め方がそれによって変わります。例えば、正規分布にしたがうランダムな値をn個生成したとします。このn個の値から、正規分布の母数である{\mu}{\sigma^2}を最尤法によって推定してみます。ここで、{ \theta = ( \mu , \sigma^2 )}とします。まず、ここでの尤度関数を求めます。
すべての{x}のなかから{x_1}を選ぶ確率は、ここでは正規分布に従っているので、


{f(x_1) = {\cfrac{1}{\sqrt{2\pi{\mathstrut \sigma}^2}}\exp{\Bigr\{-\cfrac{(x_1-\mu)^2}{2\sigma^2}\Bigr\}}}}


となります。ということは、{x_1}から{x_n}までの値を選ぶ確率(尤度関数)は、それぞれを選ぶ確率の積で表せるから、


{L(\theta) = \prod_{i=1}^{n} {\cfrac{1}{\sqrt{2\pi{\mathstrut \sigma}^2}}\exp{\Bigr\{-\cfrac{(x_i-\mu)^2}{2\sigma^2}\Bigr\}}}}


となる。この関数を最大にするような{\theta}を求める。これも対数をとってから、それぞれの偏微分を求めて0を代入する。


{\log L(\theta) = -\cfrac{n}{2}\log {2\pi\sigma^2}-\cfrac{1}{2\sigma^2}\sum_{i=1}^{n} (x_i-\mu)^2}


{\cfrac{d}{d\mu} L(\theta) = \cfrac{1}{\sigma^2}\sum_{i=1}^{n} (x_i-\mu) = 0}

{\mu = \cfrac{1}{n}\sum_{i=1}^{n} x_i}

{\cfrac{d}{d\sigma^2} L(\theta) = -\cfrac{n}{\sigma^2}+\cfrac{1}{\sigma^3}\sum_{i=1}^{n} (x_i-\mu) = 0}

{\sigma^2 = \cfrac{1}{n}\sum_{i=1}^{n} (x_i-\mu)}


その結果、正規分布の標本平均と標本分散がそれぞれの最尤推定量となることがわかりました。

まとめ

  • 尤度は確率
  • 分布や母数が連続か離散かで尤度関数の求めかたが変わる
  • 分布の一部を尤度関数にあてはめて母数を推定するのが最尤法