迷惑メールの振り分けに使われている「ベイズの定理」とは？

迷惑メールの振り分けはどうやっているの？

Gmail等のメールサービスには迷惑メールを自動で振り分けてくれる機能があります。実はこの機能には「ベイズの定理」という統計学の理論が使われています。

今回は「ベイズの定理」について、極力わかりやすい形で説明したいと思います。

まずは、こちらがベイズの定理の公式です。

$$P(B \mid A) = \frac{P(A \mid B)P(B)}{P(A)}・・・★$$

$P(A)$は純粋に$A$が発生する確率、$P(B \mid A)$は$A$の状態で$B$が発生する確率（$A$が発生する確率は含んでいない）です。

具体例に置き換えて、$A$が「メール本文に『無料』と含まれること」、$B$が「迷惑メールであること」とすると、$P(A)$は「メール本文に『無料』と含まれている確率」、$P(B \mid A)$は「メール本文に『無料』と含まれていた場合に迷惑メールである確率」となります。

この公式の導出を順を追って説明します。

$P(B \mid A)$は「$対象の事象 ÷ 全体$」という確率の定義に従うと、対象の事象は$P(A \cap B)$、全体は$P(A)$となるので、

$$P(B \mid A) = \frac{P(A \cap B)}{P(A)}・・・①$$

$A$と$B$を逆転した場合も同様に、

$$P(A \mid B) = \frac{P(B \cap A)}{P(B)}= \frac{P(A \cap B)}{P(B)}・・・②$$

①と②を式変形すると、

$$P(A \cap B) = P(B \mid A)P(A) = P(A \mid B)P(B)・・・③$$

③を式変形すると★が導けます。

$$P(B \mid A) = \frac{P(A \mid B)P(B)}{P(A)}$$

理解してしまえば簡単ですが色々と使える定理で、迷惑メール以外でも様々なところで使われています！