迷惑メールの振り分けに使われている「ベイズの定理」とは？

迷惑メールの振り分けはどうやっているの？

Gmail等のメールサービスには迷惑メールを自動で振り分けてくれる機能があります。実はこの機能には「ベイズの定理」という統計学の理論が使われています。

今回は「ベイズの定理」について、極力わかりやすい形で説明したいと思います。

まずは、こちらがベイズの定理の公式です。

$P(B \mid A) = \frac{P(A \mid B)P(B)}{P(A)}・・・★$

$P(A)$ は純粋に $A$ が発生する確率、 $P(B \mid A)$ は $A$ の状態で $B$ が発生する確率（ $A$ が発生する確率は含んでいない）です。

具体例に置き換えて、 $A$ が「メール本文に『無料』と含まれること」、 $B$ が「迷惑メールであること」とすると、 $P(A)$ は「メール本文に『無料』と含まれている確率」、 $P(B \mid A)$ は「メール本文に『無料』と含まれていた場合に迷惑メールである確率」となります。

この公式の導出を順を追って説明します。

$P(B \mid A)$ は「 $対象の事象 ÷ 全体$ 」という確率の定義に従うと、対象の事象は $P(A \cap B)$ 、全体は $P(A)$ となるので、

$P(B \mid A) = \frac{P(A \cap B)}{P(A)}・・・①$

$A$ と $B$ を逆転した場合も同様に、

$P(A \mid B) = \frac{P(B \cap A)}{P(B)}= \frac{P(A \cap B)}{P(B)}・・・②$

①と②を式変形すると、

$P(A \cap B) = P(B \mid A)P(A) = P(A \mid B)P(B)・・・③$

③を式変形すると★が導けます。

$P(B \mid A) = \frac{P(A \mid B)P(B)}{P(A)}$

理解してしまえば簡単ですが色々と使える定理で、迷惑メール以外でも様々なところで使われています！