ファイル(F)
表示(V)
ヘルプ(H)
2020-11-24-迷惑メールの振り分けに使われているベイズの定理とは.MDX
2020/11/24[機械学習] [セキュリティ]

迷惑メールの振り分けに使われている「ベイズの定理」とは?

迷惑メールの振り分けはどうやっているの?

Gmail等のメールサービスには迷惑メールを自動で振り分けてくれる機能があります。実はこの機能には「ベイズの定理」という統計学の理論が使われています。

今回は「ベイズの定理」について、極力わかりやすい形で説明したいと思います。

ベイズの定理とは?

まずは、こちらがベイズの定理の公式です。

P(BA)=P(AB)P(B)P(A)・・・★P(B \mid A) = \frac{P(A \mid B)P(B)}{P(A)}・・・★

P(A)P(A)は純粋にAAが発生する確率、P(BA)P(B \mid A)AAの状態でBBが発生する確率(AAが発生する確率は含んでいない)です。

具体例に置き換えて、AAが「メール本文に『無料』と含まれること」、BBが「迷惑メールであること」とすると、P(A)P(A)は「メール本文に『無料』と含まれている確率」、P(BA)P(B \mid A)は「メール本文に『無料』と含まれていた場合に迷惑メールである確率」となります。

この公式の導出を順を追って説明します。

P(BA)P(B \mid A)は「対象の事象÷全体対象の事象 ÷ 全体」という確率の定義に従うと、対象の事象はP(AB)P(A \cap B)、全体はP(A)P(A)となるので、

P(BA)=P(AB)P(A)・・・①P(B \mid A) = \frac{P(A \cap B)}{P(A)}・・・①

AABBを逆転した場合も同様に、

P(AB)=P(BA)P(B)=P(AB)P(B)・・・②P(A \mid B) = \frac{P(B \cap A)}{P(B)}= \frac{P(A \cap B)}{P(B)}・・・②

①と②を式変形すると、

P(AB)=P(BA)P(A)=P(AB)P(B)・・・③P(A \cap B) = P(B \mid A)P(A) = P(A \mid B)P(B)・・・③

③を式変形すると★が導けます。

P(BA)=P(AB)P(B)P(A)P(B \mid A) = \frac{P(A \mid B)P(B)}{P(A)}

まとめ

理解してしまえば簡単ですが色々と使える定理で、迷惑メール以外でも様々なところで使われています!

← 前[一覧]次 →2020/11/24[機械学習, セキュリティ]←→:前後 Esc:一覧
BASSBONE'S BLOG Ver.1.0