Advanced Analytics from Spark #4 Decision Tree & Random Forest #1

Advanced Analytics with Spark Chap-04 に進もう。
———————————————————-
Covtypeデータ・セットは、
https://archive.ics.uci.edu/ml/machine-learning-databases/covtype/

展開して得られたcovtype.dataの中身を覗いてみると、55列、581,012行のデータ

covtype.infoを見ると、データ構造は、

Attribute informationには、13項目の説明:

他の行には、それぞれのデータの説明が記載されている。
とりあえず、HDFSにデータファイルを移す。

SparkをCPUマルチコア、6Gメモリで立ち上げる。

続いて、決定木Decision Treeの実装へ:

Vectorsは、org.apache.spark.mllib.linalgのクラス。dense()は

Scalaのinitはリストの最後の要素を除いた残りのリストを求める.
最後にorg.apache.spark.mllib.regressionのClass LabeledPointを返す。
LabeledPointは、