Advanced Analytics with Spark #4 K-Means Clustering #1

K-Means Clusteringに進む。
————————————————————-
k-means
http://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-visualise/
https://dev.classmethod.jp/machine-learning/k-means-impl/
1)分割対象となるクラスタ数kを決める
2)データが含まれる空間にランダムにk個の点(セントロイド)を置くき、それぞれのクラスタの中心とする
3)各データがセントロイドのうちどれに最も近いかを計算して、そのデータが所属するクラスタとする
4)セントロイドの位置をそのクラスタに含まれるデータの重心になるように移動する
各セントロイドの重心が変わらなくなるまで3, 4を繰り返す
————————————————————-
データのダウンロード:
http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
データ構造は以下の通り、ネットワークパケットデータに関する38の特徴を一行ずつ収めたもの。

データファイルを展開して、HDFSへコピーする: