Spark実践 #6 PySpark ML その3

自前のデータでPySpark MLに挑戦:

23,534件の麻酔データ:エホチール、エフェドリン、ネオシネジンのいずれかを使用したどうかを術前データから予想。

術前データ:
ーーーーーーーーーーーーーーーーー
昇圧剤 pressor
診療科コード dept
手術室コード ope_room
申し込み区分コード resister
麻酔方法コード anesthesia
ASA分類コード ASA
年齢年 age
性別コード sex
身長 height
体重 weight
年齢区分コード age_cat
入室時刻コード time_cat
麻酔開始時刻コード ane_start
予定手術時間 ope_time
手術部位コード ope_portion
体位コード position

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
昇圧剤 診療科コード 手術室コード 申し込み区分コード 麻酔方法コード ASA分類コード 年齢年 性別コード 身長 体重 年齢区分コード 入室時刻コード 麻酔開始時刻コード 予定手術時間 手術部位コード 体位コード
0 23 10 4 0 0 2 0 87.5 12.8 1 0 0 90 0 0
0 24 13 1 0 0 80 0 157 57.2 9 11 0 180 0 0
0 18 1 1 0 0 64 0 157.5 52.2 7 12 0 60 0 0
0 9 1 4 0 0 71 1 149 48 8 1 2 60 0 0
0 22 14 3 0 0 38 0 167.9 62.8 4 4 4 210 0 0
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

Saving the model

Parameter hyper-tuning
Grid search