前回記事の続きである。
既に検証サイトも幾つか出てきているが、実際のところ皆さんも、この流出データがどこまで信憑性があるものなのか、気になっていることだろう。
ちまたで噂される「サクラ」の存在はどこまで本当なのか。
あるいは、日本人会員180万人は本当なのか。
そこで今回は以下の疑問を解消すべくデータを色々引っかき回して真実を探ってみた。
- Q.1 これは本当のデータか?
- Q.2 個人情報はどこまで含まれているのか?
- Q.3 有料の個人データ削除はどこまで消えている?
- Q.4 サクラは居るのか?
- Q.5 日本人会員は本当に180万人も居る?
- Q.6 アクティブユーザーは?
なおデータはテキスト整形で適当にカウントしているので、多少の誤差を含むことは予め注意しておく。
Q.1 これは本当のデータか?
前回も書いたとおり、実際のアシュレイ・マディソンのサイトから流出した本物のデータと当方は判断した。
その内容(初回流出分)だが、複数のDBテーブルが含まれているのだけれど、いずれも微妙にデータの範囲が異なっていた。
数日あるいは数ヶ月に分けてデータを盗んでいったのだろうか。
流出データの主な構成
10GBクラスのサイズを持つ、利用者の「プロフィール」を示すデータ表が2つ。
この2つは中身がほぼ重複している。DBの正規化は行われていないようだ。
一方は「2002-01-17 から 2015-02-23まで」の登録分。もう一方は登録日情報がなく更新日であるが「2015-07-12」まで。
ごく最近のものまでが含まれているようだ。
その他に、メアドやログイン情報は別テーブルになっている。
クレジットカードの取引情報も別にCSVでまとめられていた。
総計3600万(※)を越すアカウント情報だ。
出会い系というセンシティブな内容を除外しても、相当数である。
アシュレイマディソンの運営会社はフェイク(偽物)のデータだと言っているらしいけど、これをフェイクで用意するのも大変だろう。
※他の検証サイトでは3200万としているのもあるが、上記のとおり2つのデータ中、少ない方が3200万弱なので、それを言っているのだろう。
登録してみた。やっぱり本物
今回、データを見る目的で本家サイトに登録してみた。
流出データで見繕った条件からお相手を探してみると……流出データどおりのプロフィールを持つ女性が確かに見つかった。
適当に何人か選んで試したが、その全てが検索で探し当てられたのだ。
とうことで、もう本物確定なのは間違いないと思う。
※2015年8月29日現在のニュースでCEOが辞任したと入ってきた。やはり認めざるを得なくなったのだろう。
Q.2 個人情報はどこまで含まれているのか?
特に流出被害にあった人は気になるモノだろう。
簡単に言うと、以下のとおりだ。
- ユーザーが入力したプロフィールすべて
- クレジットカードで入金した人は、その取り引き情報
- 直接入力以外の情報として、登録したときのIPアドレスやサイトで行動を起こした最終日時
プロフィールについては、メアドはもちろん、生年月日、性別、身長体重、郵便番号、所属国を含む住所、地理情報(緯度経度)に加えて、長期の関係を望むか等、あるいは好みのプレイスタイルなんかもあった。
また一部アカウントでは、秘密の質問で母親の旧姓とかを入れているのも確認できた。
一方で、以下は(管理人が落とした初回流出分には)含まれていなかった。
- アップロードした画像データ
- 誰かとのチャットやメールの内容
さて興味深いのは、緯度経度の地理情報が全員に含まれていることだ。
管理人が試しに登録してみたときには、そこまで詳細な住所の入力は求められなかった。
おそらく郵便番号から逆引きしているのだろうとは思うが、まさかスマフォとかの位置情報を収集してたりしないよね……?
現在の主なスマフォにおける仕様では、ブラウザが必ず「位置情報提供前にダイアログを出す」ので、そこで許可しない限りは勝手に抜かれることはないはず。
もし郵便番号から変換しているんなら、なんでそんな値をわざわざDBに入れてるんだろうね。
※2015/09/02追記
緯度経度について匿名の方からコメントを頂いた。この場を用いて感謝。
緯度経度をDBに突っ込んでおけば「近隣のユーザー」を検索しやすいとのこと。
なるほどそういやそんな機能があった。
直線距離を求めるのに利用しているならDBに格納するのもまあ納得。
もっとも、ならば一層、なぜそれを削除しないの?という疑惑も湧くものだ。
年齢性別が残されていることと合わせて、有料削除ユーザーもサクラに利用していたのでは、という憶測もあながち穿ちすぎではないように思える。
Q.3 有料の個人データ削除はどこまで消えている?
アシュレイマディソンは登録は無料で、削除は有料という変なビジネスモデルを掲げている。
検証を行っている他のサイトからの情報によると、それが、実は本当に削除されていないという話だ。
だとしたらまさに詐欺。許せることではないが……実際のデータはどうなっているのだろう?
paid_delete
見てみると「<paid_delete>」というデータが他のデータの間にまぎれて数件見つかった。
なるほど物理的な削除という意味では確かに削除されていない。
DBの登録情報そのものは削除せず「<paid_delete>」という値で個人情報を上書きする形で消している。
まあ、あれだ。履歴書自体は捨てずヤバイ場所だけ黒塗りにして保管してました、みたいな。
実際のデータが失われてるなら同じ事だ、と安心してはいけない。
なぜなら「全てのデータが paid_delete で上書きされてはいない」からだ。
なんと、そのまま残っている項目も結構多いのである。
その調査結果が下の画像だ。[残]というのが残されたデータ。[消]というのが上書きなどで消されたデータだ。
なるほど名前や郵便番号(zip)、メアドは消えている。
しかし市町村名や性別・生年月日、身体情報が丸々残っている。
例えばの話だが、2015年8月29日生まれの千代田区の男性(太り気味)、というような情報は残っているのだ。
それが判ったところで、個人特定には紐付かないからいいじゃん。と言いたいのだろうか?
甘い。
僅かでも手がかりが残っていると、それを他の情報と組み合わせることができてしまうのだ。
- 緯度経度が残っているので、郵便番号は復活できる => 番地レベルの詳細な住所が判明
- クレジットカード情報も流出しており、そこのメアドは残ってる => IDで逆引きすればメアド判明
都会ならまだしも、田舎なら番地と生年月日が判れば本人特定ほぼ可能じゃなかろうか。
そう言えばIPアドレスも残ってた。メアドのホストと突き合わせて、もしマッチしたら……言い逃れも厳しい感じだ。
これはもう、わざとじゃないにしても重過失として訴えていいレベル。
でも……実際は訴えられないよね。個人情報を消したいが為に金を払った人が、裁判で実名をさらせるわけがない。
さすがに被害者へ同情したくなってきた。
削除の方法は一つだけじゃない?
ところで複数に分かれているデータを突き合わせている最中、期間的には含まれているはずなのに片方から抜け落ちているデータが見つかった。
日本人アカウントで数えたところ、12件ある。
この12件は、少なくとも片方からは物理削除されており、もう片方も生年月日が”0000-00-00″になっていた。
ただし住所やIPアドレスはやっぱり残っている。
やはり中途半端なものではあるのだが、これらは何らかの別の削除手段が行われたことを示唆している。
それがシステム的に裏機能として存在するのか、あるいは手作業で直接DBから削除したのかは定かでないが、件数の少なさからすれば手動の疑いが強そうだ。
今回はここまで。
長くなったので一旦区切ろう。
続きはコチラ。
コメント