novtanの日常

ネタです。ネタなんです。マジレスする人は撲滅すべき敵です。だからネタだってば!

AI、ビッグデータ、個人情報

今回のリクルートの件も氷山の一角だと思うけど、ビッグデータというバズワードで始まった個人データの蓄積はまあまあエビルな方向に問題を起こしてはいるよね(の一つの帰結がGDPRでもある)。

AI?の判断がインプットデータのバイアスによって偏るなんてことはGoogleでも何度もやらかしていることで、一切の正解がないところから何かを導き出す、というのはかなり難しい中で、最初からバイアスのかかった「学習データ」を与えられたりするんだからまあまあ当たり前の話で、そもそももとにするデータ自体が社会によって与えられたバイアスのかかった人間の活動の成果でしかなかったりするわけでさ。データにはルールとかモラルとかが含まれていないことが多いので、インモラルな行動を取ることが成果を上げる近道である(短期的には社会的な事実)みたいな話にすらなるかもしれない。

まあ、そのへんはやり方を間違えないことが肝心、という話ではあるし、間違えないでわかることって意外と少ないのでは、という話でしかない。

ところで、よく、「ビッグデータは個人情報を個人がわからないように特徴抽出した結果を使っているから個人情報ではない」みたいに言われることがあるけど、これの一番の問題は、「そういうことになっているけど大抵の場合、審査されているわけではない」ということで、ようは紳士協定に毛が生えたようなものだ(もちろん、破っていることが発覚したらダメージを受ける)。そして、往々にしてこの手の個人のマスキングは意図せずして不十分である(よく例に上がるのは、ホニャララ県ホニャララ郡ホニャララ町の女子高生というデータ、対象一人やんけ、みたいなの)。

学生の内定辞退率、で仮に匿名のデータを売っていたとする。リクナビから企業にもともと渡るデータは学生の素データだけである、とすると、匿名データでもらって役に立つには強く属性に紐付いたデータである。例えば、22歳の学生は内定辞退率が高い…はあそうですか…25歳の学生は…って受験者3人くらいしか居ねーな…こいつか?みたいな?それじゃ役に立たないよね。でも、報道されていた「内定後もサイトを頻繁に見ていた学生」なんてのは企業は誰が候補なのかそれだけもらってもわからないし、自分たち側で収集できるデータではないので、なんの役にも立たない。であるならば、有料で売るデータとしてはやはり人を特定できるデータが含まれていることが自然だ。AIがなにをやっているか、なんてのはあんまり関係なくてね。まあ仮にAIが匿名化を徹底した結果としてアリャアリャ区アリャアリャ3丁目に住んでいる学生は辞退率が高いみたいな分析結果を出してきてそれを売っているので大丈夫とか言ってるとしたらハアそうですかバカですか、と言わざるを得ないんだけどな。