Big Data Analytics with PySpark

PySparkを用いたBig Dataの解析についての学習
—————————————
まずは、Python3.6でなくて、Python3.5をAnacondaの環境に以下のようにTerminalから命令して追加する。

次に、Anaconda NavigatorからJupyter Notebookをpy35へインストールする。

.bash_profileにPATHを以下のように追加する

で、Sparkのフォルダ内から以下の命令で、

でJupyter Notebook立ち上がり、PySparkを動かす。

始めの例題は、UCIの機械学習ライブラリーから、KDDCup 1999 Datasetをダウンロード。kddcup.data.gzは18.1 MB、kddcup.data.gzは、745.5 MBもある。概略は、
https://ntddk.github.io/2016/11/23/kdd-cup-99-data/
に記載されている。UCIの記述を機械翻訳すると、
“これは、第3回国際知識発見とデータマイニングツールコンペティションに使用され、KDD-99第5回知識発見とデータマイニングに関する国際会議と一緒に開催されました。競争の課題は、侵入や攻撃と呼ばれる「悪い」接続と「良い」通常の接続を区別できる予測モデルであるネットワーク侵入検知機能を構築することでした。このデータベースには、監査対象の標準的なデータセットが含まれています。これには、軍事ネットワーク環境でシミュレートされたさまざまな侵入が含まれています。”

侵入検知器の学習

ネットワークへの侵入を検出するソフトウェアは、おそらくインサイダーを含む不正ユーザーからコンピュータネットワークを保護します。侵入検知器学習タスクは、侵入または攻撃と呼ばれる「悪い」接続と、「良い」通常接続とを区別することができる予測モデル(すなわち分類器)を構築することである。
1998 DARPA侵入検知評価プログラムは、MIT Lincoln Labsによって作成および管理されています。その目的は、侵入検知の研究を調査し評価することでした。軍事ネットワーク環境でシミュレートされたさまざまな侵入を含む、監査対象の標準データセットが提供されました。 1999 KDD侵入検知コンテストは、このデータセットのバージョンを使用します。

Lincoln Labsは、典型的な米国空軍LANをシミュレートするローカルエリアネットワーク(LAN)用に9週間の生TCPダンプデータを取得するための環境を設定しました。彼らはあたかもそれが本当の空軍環境であるかのようにLANを操作しましたが、それを複数の攻撃でこじ開けました。

生のトレーニングデータは、7週間のネットワークトラフィックからの約4ギガバイトの圧縮バイナリTCPダンプデータでした。これは約500万の接続レコードに処理されました。同様に、2週間のテストデータから約200万件の接続記録が得られました。

接続とは、データが送信元IPアドレスと送信先IPアドレスの間で、送信先IPアドレスとの間で送受信されるTCPパケットのシーケンスのことです。各接続は、通常、または攻撃として分類され、厳密に1つの攻撃タイプがあります。各接続レコードは約100バイトで構成されています。

攻撃は4つの主なカテゴリに分類されます。

DOS:サービス拒否、例えばシンフラッド。
R2L:リモートマシンからの不正アクセスパスワードを推測します。
U2R:ローカルのスーパーユーザー(root)特権への不正アクセス。例えば、さまざまな “バッファオーバーフロー”攻撃。
プロービング:サーベイランスおよび他のプロービング、例えばポートスキャン。
テストデータはトレーニングデータと同じ確率分布からのものではなく、トレーニングデータに含まれていない特定の攻撃タイプが含まれていることに注意することが重要です。これにより、タスクがより現実的になります。侵入の専門家の中には、ほとんどの新種の攻撃が既知の攻撃の変種であり、既知の攻撃の「シグネチャ」で新種の変種を捉えるのに十分であると考える人もいます。データセットには、合計24種類のトレーニング攻撃タイプが含まれていますが、テストデータのみでさらに14種類が含まれています。

中身を覗いてみると、

列に特徴名を振ると、