2008/07/19(土)SpamPalの可能性
2008/07/19 14:57
以前はspamassassinをサーバに入れてスパム対策をかけていたのだが、spamassassinの動きが時折不審であったことと、重いこと、それに加えカスタマイズが結構めんどくさいので自宅サーバではもうやめてしまった。あれからspamassassinもApacheに入ったので今とは状況が違うとは思うがおそらくベースの使い勝手は変わっていないと思う。
今はデスクトップ機の方がリソースに余裕があるし、クライアントマシンに入れた方がカスタマイズしやすい。POPFILEの存在は認識していたのだが、重さと振り分けの動作がいまいち所望と違う。そうこうしてるうちにSpamPalに巡り会った。
SpamPalはURIBLや発信国振り分けに重きを置いたスパムフィルタである。売りとしては初期から使えるBLの豊富さと、スパムフィルタとしては比較的動作が軽快であること。プラグインでベイジアンフィルタも含め機能追加に対応できるところなどだ。
スパムメール対策といえば、
* 発信国判定
* ブラックリスト、ホワイトリスト
* キーワードでの除外、ハム化
* 逆引き一致
* メールアドレス判定
* ベイジアンフィルタ
などが多く使われている。網羅しているわけではないが、スタンダードなところだとこのあたりだろう。
一般的に1つ2つを使うだけでは対策としては不十分で、複数のフィルタを組み合わせたり、あるいは点数付けによってスパム/ハムを振り分ける。
やっかいなことではあるが、実感としては取り扱うメールの量によってどの対策が有効であるかが大きく変わるようだ。
導入コストや動作コストの問題もあるが、受信あるいは通過するメールの量が相当多くないとベイジアンフィルタは今ひとつ効果が薄い。
特に個人ユースでデスクトップに入れる場合には、thunderbirdの例を引くまでもなくベイジアンフィルタの効用を実感できないことが多い。理由は明らかで初見のスパムが多いからである。
またベイジアンフィルタの動作は一般的に重いこともあげておこう。ちなみにspamassassinが重いのはベイジアンフィルタというよりたぶん生Perlが1通ごとに大量の正規表現検索をかけるからである。
spamassassinをいじったときの実感としては、対策方法の中で一番効くのはURIBLなどblacklistだった。細かい正規表現・キーワード判定は確かに精度を上げるが大勢には影響を与えない。逆引きはどうしても癌で、正規のプロバイダメールを落としてしまうことがある。
そういった経験則からSpamPalはどうも使えそうだという見込みがあった。
現在はまだ使いはじめの段階だが、特に英文のメールに対する精度は非常に高くほぼ100%の除去率を誇っている。逆に日本語は今ひとつで、結構な割合ですり抜けてくる。またハムをスパムと判定するいわゆるフォールスポジティブは、特定の個人からのメール2件で起こっているだけとなっている。
様子を見ながら調整してみるつもり。