- Home
- データ解析, バイオインフォマティクス
- データ解析・可視化の価値
ブログ
10.232016
データ解析・可視化の価値

突然ですが、問題です。
次の表の Data1 から Data50 の中で
仲間はずれのデータが
一つだけあります。
どれだか分かりますか?
Data1 | -1.161136433 | 9.932359346 |
Data2 | 5.673764054 | 8.234585688 |
Data3 | -7.264103558 | -6.872612277 |
Data4 | -9.757581081 | -2.188518094 |
Data5 | -0.16306597 | -9.998670386 |
Data6 | 9.622155509 | -2.722888791 |
Data7 | -9.109012054 | 4.126245194 |
Data8 | -8.744467776 | 4.851214623 |
Data9 | -7.205842619 | 6.933673784 |
Data10 | -4.406331718 | 8.976872551 |
Data11 | 8.286309798 | -5.597952298 |
Data12 | 7.830176361 | 6.219995028 |
Data13 | 4.109462147 | 9.116595903 |
Data14 | 9.94645756 | -1.033432152 |
Data15 | 0.088823837 | -9.999605509 |
Data16 | -7.990713928 | 6.01236151 |
Data17 | -9.947494583 | -1.023401933 |
Data18 | -5.103459846 | 8.599691715 |
Data19 | -9.797557994 | 2.001963377 |
Data20 | -0.511079924 | 9.986931326 |
Data21 | -4.839582512 | -8.750910873 |
Data22 | -0.331561146 | -9.994501849 |
Data23 | -6.182247677 | -7.860013592 |
Data24 | 6.735170601 | 7.391716781 |
Data25 | 7.78465433 | -6.276874777 |
Data26 | 9.218245221 | 3.876074695 |
Data27 | -9.469463275 | -3.213917435 |
Data28 | 6.234810742 | 7.818384424 |
Data29 | -5.754236986 | 8.178554684 |
Data30 | 8.059829218 | -5.919387889 |
Data31 | 6.098033549 | 7.925527543 |
Data32 | -9.294057137 | 3.69059642 |
Data33 | -5.234234234 | 4.83234212 |
Data34 | 7.988536662 | -6.015254109 |
Data35 | -1.537528646 | -9.881093343 |
Data36 | -9.7477437 | -2.231925794 |
Data37 | -4.140851816 | 9.10238135 |
Data38 | -4.935711268 | 8.697054345 |
Data39 | -1.083541201 | 9.941123602 |
Data40 | -8.269507055 | -5.622744265 |
Data41 | -6.591215722 | -7.520364041 |
Data42 | -3.520521357 | -9.359803918 |
Data43 | -9.327087017 | 3.606306666 |
Data44 | 8.098394286 | 5.866516002 |
Data45 | 8.928187809 | -4.50416057 |
Data46 | -7.884637511 | 6.150812249 |
Data47 | -9.049722362 | -4.254706239 |
Data48 | -6.282085441 | 7.78045002 |
Data49 | -1.805996261 | -9.835566964 |
Data50 | -6.758860869 | 7.370061042 |
多分、ぱっと見ても
なかなか分からないと思います。
ですが、これを Data1 ~ Data50 まで
1つめの数字を X 軸に、
2つ目の数字を Y軸にプロットしてみると
一目瞭然です。
これらのデータは全て
一つの円上にプロットされていますが、
一つだけ、円の上にないデータがありますよね。
ですから、この問題の正解は
この円の上にないデータが
正解となります。
この様に、通常与えられた数字というのは
数字の羅列ですが、
この様にうまく表示してやると
今回の様な目的のデータや
全体の特徴が見えてきます。
これが、データ可視化の力です。
では、円の上にないデータが
仲間はずれのデータという事は
分かりましたが、
それでは、Data1 ~ Data50 で
どれが、その仲間はずれのデータでしょうか?
それには次の値を計算してみます。
$$x^2+y^2$$
実際に計算してみると
以下の様になります。
Data1 | 100 |
Data2 | 100 |
Data3 | 100 |
Data4 | 100 |
Data5 | 100 |
Data6 | 100 |
Data7 | 100 |
Data8 | 100 |
Data9 | 100 |
Data10 | 100 |
Data11 | 100 |
Data12 | 100 |
Data13 | 100 |
Data14 | 100 |
Data15 | 100 |
Data16 | 100 |
Data17 | 100 |
Data18 | 100 |
Data19 | 100 |
Data20 | 100 |
Data21 | 100 |
Data22 | 100 |
Data23 | 100 |
Data24 | 100 |
Data25 | 100 |
Data26 | 100 |
Data27 | 100 |
Data28 | 100 |
Data29 | 100 |
Data30 | 100 |
Data31 | 100 |
Data32 | 100 |
Data33 | 50.74873838 |
Data34 | 100 |
Data35 | 100 |
Data36 | 100 |
Data37 | 100 |
Data38 | 100 |
Data39 | 100 |
Data40 | 100 |
Data41 | 100 |
Data42 | 100 |
Data43 | 100 |
Data44 | 100 |
Data45 | 100 |
Data46 | 100 |
Data47 | 100 |
Data48 | 100 |
Data49 | 100 |
Data50 | 100 |
Data33 だけ値が違いますね。
・・・という訳で正解は
データ33 が仲間はずれです。
この様に、与えられた数値を
うまく計算してパラメータ化してやると
これまでは見えてこなかった
情報が見えてきます。
これがデータ解析の力です。
データとは、大抵は与えられた時は
最初に出された様な
訳の分からない数字の羅列です。
しかし、それを可視化して
うまく表現したり、
解析して、データの特徴を
抽出する事によって、
これまで、埋もれていた情報が
見えてきたりします。
これは、この広い世の中の
どこかに隠れている財宝を探し出す様な
宝探しの様なものかもしれません。
そして、データの中の宝探しは
可視化と解析が
大きな武器になります。
コメント
この記事へのトラックバックはありません。
この記事へのコメントはありません。