Advanced Analytics from Spark #2-1

Advanced Analytics from Spark、Oreillyから学習を開始する。

UCIのMachine Learning Repositoryの中から、2010年ドイツでの病院での600万人近い患者のマッチングデータに関する研究。名前や生年月日、郵便番号から同一患者かどうかを判定することに関してのデータ。

Sariyar M1, Borg A, Pommerening K.Controlling false match rates in record linkage using extreme value theory.J Biomed Inform. 2011 Aug;44(4):648-54. doi: 10.1016/j.jbi.2011.02.008. Epub 2011 Feb 23.

5,749,132件のレコードペアの中で、マッチしたのが20,931件で、データは以下の12項目で構成される。データセットは10ブロックに、均等なサイズ、均等なマッチ/アンマッチ比率に分けられて提供されている。

からを利用したUCI Machine Learning Repositoryからはデータが取れなくなっているので、以下のUMASSのMirror siteから直接ダウンロードする。
http://mlr.cs.umass.edu/ml/machine-learning-databases/00210/
unzipを繰り返して、中身の10個のblock_*.csvだけを、新たに作成した~/linkageフォルダに収める。
block_1.csvをエディターで覗いてみると

と57万5千件近いデータが一行づつ収まっている。

前回のブログで記述してしまっているが、この~/linkageフォルダに収めたcsvファイルを、HadoopのHDFSに収めることとする。

localhost:9870のUtilitiesのBrowse DirectoryでHDSFにデータファイルが、コピーされたことが確認できる。
http://localhost:9870/explorer.html#/

ではいよいよ、Spark-Shellをローカルモードで起動する。