Spark実践 #2 Spark.mlによる分類の実装

「詳解Apache Spark」の例で毒キノコの外見判別ー決定木
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
データは、UCIの機械学習さいとより、
https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/
agaricus-lepiota.data
をダウンロードする。
プログラムコード例は、
https://github.com/yu-iskw/gihyo-spark-book-example
のCh07-きのこの可食・有毒の識別のサンプルコード
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
データは、

と、23列の文字。始めのe: edible, p: poisonous
Class Distribution:
— edible: 4208 (51.8%)
— poisonous: 3916 (48.2%)
— total: 8124 instances

他の22項目は、

解析結果をいろいろと弄ってみる。

Databricksを用いて、可視化してみる。