Advanced Analytics with Spark #7 GraphX #1

Advanced Analytics with Spark #7に入る。共起ネットワークの構築。ScaleによるXMLのハンドリングが含まれる。
———————————————
共起ネットワークの「共起」とは、ある単語がある文章(または文)中に出たとき、その文章(文)中に別の限られた単語が頻繁に出現すること。共起とは、自然言語処理の分野において、任意の文書や文において、ある文字列とある文字列が同時に出現することである。
———————————————
NIHのFTPサーバーからMedlineのサンプルデータを取得する。

gunzipして展開して得たxmlファイルを確認。
で挟まれた1論文データ。

その中の、MeSHのキーワードは、主要トピックス属性を含む。

xmlファイルをHDFSにロードする。

https://github.com/sryza/aas/tree/1st-edition
よりコードをダウンロード、unzipで、commonディレクトリへ移動し、mavenでビルド。

MedlineデータからMeSHトピックタグをmedlineとして取り出せた。