Hadoop & HDFS 情報更新

大規模データ分散処理を支えるHadoop Distributed File Systemについて、チェックしておく。
手順を間違えると、エラー出まくりで、1-2日を棒に振ることになるので要注意。
おおまかなHadoopの基本概念は、SSHというリモートアクセスのプロトコールを通じて、ネット上からアクセス可能なhdfsという仮想のファイル構造を構築することから始まる。
SSHを構築して、Hadoop Namenode formatで仮想ファイル構造hdfsを作成し、sbinから起動する。
無事に起動できれば、hadoop fs コマンド群で、フォルダを作成したり、一般ファイル構成から、このhdfsにコピーしたりする。詳細な設定により、巨大なデータを複数のコンピュータ上に保存して、分散処理の基盤を作成することができる。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
Hadoop 3.3.1のインストール:

で、/opt/homebrew/Cellar/hadoop/3.3.1 にインストールされる。
/opt/homebrew/Cellar/hadoop/3.3.1/libexec/etc/hadoop/core-site.xmlに以下を追加。

/opt/homebrew/Cellar/hadoop/3.3.1/libexec/etc/hadoop/mapred-site.xmlに以下を追加。

/opt/homebrew/Cellar/hadoop/3.3.1/libexec/etc/hadoop/hdfs-site.xmlに以下を追加。

$HADOOP_HOME/etc/hadoop/hadoop-env.shの$JAVA_HOME variableをいかに設定(大事!でないとyarn起動でトラブルよ!)

SSH localhostの設定:localhostにsshできるようにする。

があるかどうかチェック。無ければ以下のコマンド。

リモートログイン
Macの環境設定(system preference) > 共有(Sharing) > リモートログイン(Remote Login)を有効に。

SSH鍵認証
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
試しに、ssh loginを試みる
ssh localhost
exitでログアウト。
—————————————————————————-

———————————————-
JobTracker: http://localhost:8088

Hadoop Overview: http://localhost:9870
注意:Hadoop Overview http://localhost:50070は、上記のように変更になっている!

(注:linkageフォルダは次のプロセスでできたもの)
Specific Node Information: http://localhost:8042

では、hdfsファイル構造を./bin/hadoop fs -****命令で以下のように操作していく。
何をしているかは、次のブログでまとめよう。