Hive内のMapReduceタスクはどのように実行されるのか

2年 ago

結衣, 春花

1 minute

HiveでのMapReduceタスクの実行フローは次のようになります。

Hiveのクエリ文はHiveQLに解析され、MapReduceジョブに変換されます。
HiveはMapReduceジョブをHadoopクラスタのYARN ResourceManagerに提出します。
YARN ResourceManagerがジョブにリソースを割り当て、それに応じてMapとReduceのタスクを開始します。
MapタスクはHDFSに保存されている入力データを読み込み、分割して、それをMap関数に渡して処理します。
Map関数は、入力データをキーバリューの形式に変換し、処理を行って中間結果を生成し、その後中間結果をローカルディスクに書き込みます。
Reduceタスクは、Mapタスクから生成された中間結果からデータを読み取り、同じキーの値をマージして集計し、最終結果をHDFSに書き込みます。
結果が最終的にHiveクライアントに返され、ユーザーはHiveを利用して結果をクエリできます。

要说的是，Hive中的MapReduce任务执行流程与普通的MapReduce任务执行流程相似，不同之处在于用户可以使用HiveQL编写查询语句，然后由Hive将其转换为MapReduce作业进行执行。

#プログラミング #技術記事

bannerAds