Gmail等のメールサービスには迷惑メールを自動で振り分けてくれる機能があります。実はこの機能には「ベイズの定理」という統計学の理論が使われています。
今回は「ベイズの定理」について、極力わかりやすい形で説明したいと思います。
まずは、こちらがベイズの定理の公式です。
P(B∣A)=P(A)P(A∣B)P(B)・・・★
P(A)は純粋にAが発生する確率、P(B∣A)はAの状態でBが発生する確率(Aが発生する確率は含んでいない)です。
具体例に置き換えて、Aが「メール本文に『無料』と含まれること」、Bが「迷惑メールであること」とすると、P(A)は「メール本文に『無料』と含まれている確率」、P(B∣A)は「メール本文に『無料』と含まれていた場合に迷惑メールである確率」となります。
この公式の導出を順を追って説明します。
P(B∣A)は「対象の事象÷全体」という確率の定義に従うと、対象の事象はP(A∩B)、全体はP(A)となるので、
P(B∣A)=P(A)P(A∩B)・・・①
AとBを逆転した場合も同様に、
P(A∣B)=P(B)P(B∩A)=P(B)P(A∩B)・・・②
①と②を式変形すると、
P(A∩B)=P(B∣A)P(A)=P(A∣B)P(B)・・・③
③を式変形すると★が導けます。
P(B∣A)=P(A)P(A∣B)P(B)
理解してしまえば簡単ですが色々と使える定理で、迷惑メール以外でも様々なところで使われています!