因为工作的需要,我要开始使用Hadoop,所以这是我对该产品的简要记录

Hadoop 是什么?

    • ビッグデータを分散処理を支えるオープンソースのソフトウェアフレームワーク

 

    • Java言語で作られている。

 

    • 2019/02 現在バージョンは 3.2.0

 

    • 大きく分けてMapReduceとHDFSで構成されている

 

    • MapReduce

Mapとは入力を受け取り、それを変換しkey-valueの形式で出力を行う処理を実装するためのもの
ReduceではMapで出力したkey-valueのペアのうち同じkeyを持つものを集約して処理を行う

HDFS(Hadoop Distributed File System)

データを複数のディスクから並行して読み、処理の多重度を上げることが可能
NameNodeにデータの格納先を記録しておき、DataNodeにデータを格納

蜂巢是什么?

Hive将存储在HDFS上的数据作为表进行处理,并使用类似于SQL的DSL语言HiveQL操作数据,无需意识到MapReduce,从而实现数据操作。

“Yarn是什么?”

    • Yet-Another-Resource-Negotiatorの略

 

    • Hadoopクラスタのリソース管理、ジョブスケジューリングを担当する。バージョン2.2からYarnが組み込まれている。

 

    • ResourceManager, NodeManager, ApplicationMaster で構成されている。

ApplicationMaster が必要なリソース割り当てをResourceManager に依頼
ResourceManager がリソース割り当てを実施し、ApplicationMaster がNodeManager に処理の実行を依頼

什么是Apache Spark?

    • HadoopがJava言語で作られているのに対してSparkはJavaの派生言語であるScalaで作られている。

Java, Python, R言語等昨今広く使用されている言語に対応したAPIがある。

インメモリによる高速化が可能
データの格納先がHDFS以外にも対応

Cassandra, OpenStack Swift, Amazon S3等

CDH是什么?

    • Apache Hadoopや関連製品を含むClouderaのソフトウェアディストリビューション

 

    • CDHのおかけで環境の構築が容易となった。

 

    Apache Flume や Hive や Spark、Kudu などを含む。
广告
将在 10 秒后关闭
bannerAds