未分類

スパム業者 + OCRopus の脅威

Google がサポートするオープンソースの OCR ソフト、OCRopus 速攻レビュー
Google + OCRopus がもたらすインパクト
・スパム業者 + OCRopus の脅威

OCR が賢くなったら便利になるばかりではありません。
面倒なこともあります。

・メールクローラと OCR
スパム業者のクローラはいつでも Web を徘徊していて、メールアドレスとおぼしき文字列を発見したらすぐに送信先リストに加えて広告を送ってくれます。
スパム業者にひっかからないためにメールアドレスを画像化する方法があります。
OCRopus によって将来的には Google に普通の文字情報としてインデックス化され、検索可能になってしまうかもしれません。
または、スパム業者がクロールに OCRopus を組み込むこともできますね。

というわけで、画像化されたメールアドレスをどれくらい読み取ってくれるのか簡単な実験をしてみました。

– Hand M@il
http://handmail.org/
“メールアドレス 画像” でトップにヒットするサイト。
メールアドレスを入力すると色んな装飾を施した、「人間には読めるけど機械には読みにくい」画像を作ってくれます。
とくに設定せずフォームをサブミットするだけで20種類もの画像を作ってくれます。

Hand M@il で作成した画像

さて、OCRopus にかけてみると・・・

$ ./ocropus ocr /tmp/SnapNDrag25211/handmail.jpg >handmail.html
OCRopus pre-alpha (sauvola, rast, curved, tesseract, aspell)
Revision: 76; Sun Apr 15 02:16:41 JST 2007; Darwin yusukey.local 8.9.1 Darwin Kernel Version 8.9.1: Thu Feb 22 20:55:00 PST 2007; root:xnu-792.18.15~1/RELEASE_I386 i386 i386
$ grep “foo@bar.com” handmail.html
<span class='ocr_line' title='bbox 7 2 164 28'>foo@bar.com</span>
<span class='ocr_line' title='bbox 4 31 154 60'>foo@bar.com</span>
<span class='ocr_line' title='bbox 4 120 152 147'>foo@bar.com</span>
<span class='ocr_line' title='bbox 5 181 151 207'>foo@bar.com</span>
<span class='ocr_line' title='bbox 5 211 140 239'>foo@bar`com</span>

20個中4つのメールアドレスを正確に読み取ることができました。
遊びでやっているのでどの画像が読み取られたのか/読み取られなかったのかは調べていません。
解析結果の html – handmail.html

– E-Mail Icon Generator
http://services.nexodyne.com/email/
こちらはよく見かけるカラフルなメールアドレス画像を生成してくれるサービスです。
作成したのは以下の2つの画像。

前者は “yusuke@l1`IaC.com” として認識。惜しい!
後者は全く読み取れず。
カラフルなためか、またはGとMが結構装飾された文字なためか迷ってしまうのでしょう。
解析結果の html – dotmac.html , gmail.html

・CAPTCHA と OCR
機械が読み取りにくい文字列をパスコードとして表示することで、ロボットがコメントフォームなどのサブミットを防ぐ手法があります。
大抵人間ですら読みにくい文字列が表示されるのでいきなり現れた OCRopus 如きに読み取られるとは思いませんが、試してみました。

試したのは Wikipedia の CAPTHA の項に掲載されている画像。

読みにくいけれども人間なら SMWM と書かれているのがなんとなくわかります。
OCRopus にかけてみたら “S @@8%” と認識されました。
安心なような残念なような結果。
解析結果の html – capthca.html

ちょっと遊んでみた限り、現段階では各種ロボット対策を無効化してしまうほどのインパクトは見られませんでした。
しかし、確立/統計/学習的な手法を用いたアルゴリズムでなんでも賢く自動化してしまうのが得意な Google。
従来の OCR ソフトを遙かに凌駕する精度に仕立ててくれて、そんじょそこらの CAPTCHA 画像は簡単に読み取れるようになってしまうかも。

世の中は Google の技術でもっと便利に、同時にもっと面倒になるに違いありません。
しかし、技術はイタチごっこで進歩していくという側面もあると思います。
面倒になった分は別の技術で対応すれば良いわけですね。
たとえばコメント/トラックバックスパム対策は JavaScriptを使った対策 なんかと組み合わせておくと良いかもしれません。

スパム業者の命題はいかに安いコストで多くの人に広告メールを読んでもらうかという点にあります。
現在有効なスパム対策は、技術の進歩によって非常に安いコストで無力化されてしまう可能性があります。

OCRopus 0.1.0 リリース
Google + OCRopus がもたらすインパクト
Google がサポートするオープンソースの OCR ソフト、OCRopus 速攻レビュー