ブログ

データ解析・可視化の価値

突然ですが、問題です。

次の表の Data1 から Data50 の中で
仲間はずれのデータが
一つだけあります。
どれだか分かりますか?

Data1 -1.161136433 9.932359346
Data2 5.673764054 8.234585688
Data3 -7.264103558 -6.872612277
Data4 -9.757581081 -2.188518094
Data5 -0.16306597 -9.998670386
Data6 9.622155509 -2.722888791
Data7 -9.109012054 4.126245194
Data8 -8.744467776 4.851214623
Data9 -7.205842619 6.933673784
Data10 -4.406331718 8.976872551
Data11 8.286309798 -5.597952298
Data12 7.830176361 6.219995028
Data13 4.109462147 9.116595903
Data14 9.94645756 -1.033432152
Data15 0.088823837 -9.999605509
Data16 -7.990713928 6.01236151
Data17 -9.947494583 -1.023401933
Data18 -5.103459846 8.599691715
Data19 -9.797557994 2.001963377
Data20 -0.511079924 9.986931326
Data21 -4.839582512 -8.750910873
Data22 -0.331561146 -9.994501849
Data23 -6.182247677 -7.860013592
Data24 6.735170601 7.391716781
Data25 7.78465433 -6.276874777
Data26 9.218245221 3.876074695
Data27 -9.469463275 -3.213917435
Data28 6.234810742 7.818384424
Data29 -5.754236986 8.178554684
Data30 8.059829218 -5.919387889
Data31 6.098033549 7.925527543
Data32 -9.294057137 3.69059642
Data33 -5.234234234 4.83234212
Data34 7.988536662 -6.015254109
Data35 -1.537528646 -9.881093343
Data36 -9.7477437 -2.231925794
Data37 -4.140851816 9.10238135
Data38 -4.935711268 8.697054345
Data39 -1.083541201 9.941123602
Data40 -8.269507055 -5.622744265
Data41 -6.591215722 -7.520364041
Data42 -3.520521357 -9.359803918
Data43 -9.327087017 3.606306666
Data44 8.098394286 5.866516002
Data45 8.928187809 -4.50416057
Data46 -7.884637511 6.150812249
Data47 -9.049722362 -4.254706239
Data48 -6.282085441 7.78045002
Data49 -1.805996261 -9.835566964
Data50 -6.758860869 7.370061042

多分、ぱっと見ても
なかなか分からないと思います。

ですが、これを Data1 ~ Data50 まで
1つめの数字を X 軸に、
2つ目の数字を Y軸にプロットしてみると
一目瞭然です。

graph00

これらのデータは全て
一つの円上にプロットされていますが、
一つだけ、円の上にないデータがありますよね。

ですから、この問題の正解は
この円の上にないデータが
正解となります。

この様に、通常与えられた数字というのは
数字の羅列ですが、
この様にうまく表示してやると
今回の様な目的のデータや
全体の特徴が見えてきます。

これが、データ可視化の力です。

では、円の上にないデータが
仲間はずれのデータという事は
分かりましたが、
それでは、Data1 ~ Data50 で
どれが、その仲間はずれのデータでしょうか?

それには次の値を計算してみます。

$$x^2+y^2$$

実際に計算してみると
以下の様になります。

Data1 100
Data2 100
Data3 100
Data4 100
Data5 100
Data6 100
Data7 100
Data8 100
Data9 100
Data10 100
Data11 100
Data12 100
Data13 100
Data14 100
Data15 100
Data16 100
Data17 100
Data18 100
Data19 100
Data20 100
Data21 100
Data22 100
Data23 100
Data24 100
Data25 100
Data26 100
Data27 100
Data28 100
Data29 100
Data30 100
Data31 100
Data32 100
Data33 50.74873838
Data34 100
Data35 100
Data36 100
Data37 100
Data38 100
Data39 100
Data40 100
Data41 100
Data42 100
Data43 100
Data44 100
Data45 100
Data46 100
Data47 100
Data48 100
Data49 100
Data50 100

Data33 だけ値が違いますね。
・・・という訳で正解は
データ33 が仲間はずれです。

この様に、与えられた数値を
うまく計算してパラメータ化してやると
これまでは見えてこなかった
情報が見えてきます。

これがデータ解析の力です。

データとは、大抵は与えられた時は
最初に出された様な
訳の分からない数字の羅列です。

しかし、それを可視化して
うまく表現したり、
解析して、データの特徴を
抽出する事によって、
これまで、埋もれていた情報が
見えてきたりします。

これは、この広い世の中の
どこかに隠れている財宝を探し出す様な
宝探しの様なものかもしれません。

そして、データの中の宝探しは
可視化解析
大きな武器になります。

関連記事

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

ページ上部へ戻る