Scala@Spark BEGIN

Scala@Spark を以下のサイトを参考に試してみる。
http://www.atmarkit.co.jp/ait/articles/1608/24/news014.html

/opt/spark-2.3.1-bin-hadoop2.7 にインストールしたsparkに対して、ターミナルから、spark-masterを立ち上げる。

http://localhost:8080/でSpark WebUIにアクセスしてみると、


と無事に立ち上がっている。

続けて、spark-slaveを立ち上げてみる。

するとWebUIにもスレーブが立ち上がったことが以下のように確認できる。

次に、Spark Shellで立ち上げたクラスタに接続する。

WebUIの「Running Applications」にNameが「Spark shell」となっている行が追加されている。

scala-shellで以下の計算を実行

WebUIで上記処理の状況を確認すると、39秒かかったことが理解できる。

—————————————-
Sparkが何をどう扱うのか、概要がわかるだろう。
例えると、大量の「夏休みの宿題」を抱えて、一人で短期間で終了することができない状況で、
宿題を複数(RDD)に分割して、複数の頼める友達に頼む。友達は、「やり方がわからない」というので、自分(master)から、どうやったら済ませられるかの方法を各友達(slave)に教える。
うまくいくと、頼んだ人数分のスピードであっという間に宿題が終わる。ただし、自分(master)は、どの宿題を分割して誰に頼んだかとか、やり方について責任をもって管理しないと、とんでもないことになり得る。。。。。要するにこういう夏休み宿題の複数友達依頼作戦のようなものが、おそらくSparkの基本であろうことがおぼろげにも理解できた。