学習

悪者扱いされやすいダークデータのいくつかのメリット!

投稿日:


 

今回はダークデータの良い面について紹介します。

 

ダークデータというのは基本的に悪いものです。

 

データにはたくさんの情報などがあります。

 

それを省いたり欠けていたりすると、正しいデータではなくなってしまうのです。

 

ですが、あえてそうすることでメリットがあることもあります。

 

そういうダークデータの良いところを今回は見ていきましょう。

 

スポンサーリンク
 

 

ダークデータのメリット!

無作為化比較試験」というものがあります。

 

例えば医療分野で言うと、ある治療法をあるグループに施し、別の治療法を別のグループに施すことで、2つの治療法を比較するのが最も単純な無作為化比較試験です。

 

しかしそこにはリスクが潜んでいます。

 

もし研究者がどちらの治療法をどちらかのグループに施すかを知っていたら、その認識が実験に影響を及ぼす可能性があるのです。

 

研究者はどうしても一方のグループをもう一方のグループより注意深く扱ってしまいたくなるのです。

 

例えば、未承認の新しい治療法と従来の標準的な治療法を比べる実験であれば、前者のグループに副作用がないか入念にチェックをしたり(無意識に)、結果の考察ををより慎重に行ったりしようとします。

 

このようなバイアス(思い込み)が生まれるの避けるために、こういう実験ではどちらのグループにどちらの治療法が行われているかは研究者に知らせません(DD13「意図的なダークデータ化」)。

 

このような方法は「盲検法」と呼ばれています。

 

サンプル調査も、ダークデータを活用している代表的な手法の一つです。

 

例えば町民の意見とか、ある商品の購入者の感想を聞きたい時に、その全員に聞き取り調査をするのは、費用がかかりすぎて現実的ではありません。

 

少なくとも長い時間を要するのは間違いありませんし、時間が経てば意見や感想は変わってしまう可能性があります。

 

そこで、全員に尋ねる代わりに、一部の人に尋ねればいいのです。

 

それ以外の人の意見や感想、つまり尋ねなかった人の意見や感想はダークデータになります。

 

これはリスクの高いやり方に見えるかもしれませんが、実はそうではありません。

 

しかるべき抽出方法で人を選べば、性格で信頼できる答えを得ることができるのです。

 

しかも、全員に聞き取りを行うよりもはるかに速く安く済むのです。

 

ですが、ダークデータにはいわゆるデータの平滑化を用いた第三の使い方もあります。

 

これは観察されいないか、あるいは観察できないダークデータ(DDタイプ14「データのねつ造または合成」)の正体を明らかにすることに等しく、推定や予測のデータを高められるのです。

 

また機械学習や人工知能などの分野で広く取り入れられているものもあります。

 

ちょっと一言

最初の例はなじみがなかったと思いますが、なんとなくデータを逆に隠すことでメリットが得られるんだ、と思ってもらえればいいと思います。

 

次の聞き取り調査は、例えば内閣支持率なんてこれに当たります。

 

で、これを1億人に聞いていたら何もできなくなってしまいますよね。

 

ということで、データを全部取ればいいということがわかっていただけかと思います。

 

  • SmaSurf Quick Search
ちなみに、毎日2回人生に役立つ言葉をツイッターでつぶやいています。
良かったらチェックしてみてください。
https://twitter.com/7pryQDbmp1FMQdF/status/1290640919264288768?s=20
スポンサーリンク
 

スポンサーリンク
 


他にも色んなジャンルから(勉強法やコミュテクなど)たくさんの記事が読めます!  
カテゴリー一覧
 カテゴリー

-学習

執筆者: