迷惑メールの振り分けはどうやっているの?
Gmail等のメールサービスには迷惑メールを自動で振り分けてくれる機能があります。実はこの機能には「ベイズの定理」という統計学の理論が使われています。
今回は「ベイズの定理」について、極力わかりやすい形で説明したいと思います。
ベイズの定理とは?
まずは、こちらがベイズの定理の公式です。
$$P(B \mid A) = \frac{P(A \mid B)P(B)}{P(A)}・・・★$$
$P(A)$は純粋に$A$が発生する確率、$P(B \mid A)$は$A$の状態で$B$が発生する確率($A$が発生する確率は含んでいない)です。
具体例に置き換えて、$A$が「メール本文に『無料』と含まれること」、$B$が「迷惑メールであること」とすると、$P(A)$は「メール本文に『無料』と含まれている確率」、$P(B \mid A)$は「メール本文に『無料』と含まれていた場合に迷惑メールである確率」となります。
この公式の導出を順を追って説明します。
$P(B \mid A)$は「$対象の事象 ÷ 全体$」という確率の定義に従うと、対象の事象は$P(A \cap B)$、全体は$P(A)$となるので、
$$P(B \mid A) = \frac{P(A \cap B)}{P(A)}・・・①$$
$A$と$B$を逆転した場合も同様に、
$$P(A \mid B) = \frac{P(B \cap A)}{P(B)}= \frac{P(A \cap B)}{P(B)}・・・②$$
①と②を式変形すると、
$$P(A \cap B) = P(B \mid A)P(A) = P(A \mid B)P(B)・・・③$$
③を式変形すると★が導けます。
$$P(B \mid A) = \frac{P(A \mid B)P(B)}{P(A)}$$
まとめ
理解してしまえば簡単ですが色々と使える定理で、迷惑メール以外でも様々なところで使われています!