Hive内のMapReduceタスクはどのように実行されるのか

HiveでのMapReduceタスクの実行フローは次のようになります。

  1. Hiveのクエリ文はHiveQLに解析され、MapReduceジョブに変換されます。
  2. HiveはMapReduceジョブをHadoopクラスタのYARN ResourceManagerに提出します。
  3. YARN ResourceManagerがジョブにリソースを割り当て、それに応じてMapとReduceのタスクを開始します。
  4. MapタスクはHDFSに保存されている入力データを読み込み、分割して、それをMap関数に渡して処理します。
  5. Map関数は、入力データをキーバリューの形式に変換し、処理を行って中間結果を生成し、その後中間結果をローカルディスクに書き込みます。
  6. Reduceタスクは、Mapタスクから生成された中間結果からデータを読み取り、同じキーの値をマージして集計し、最終結果をHDFSに書き込みます。
  7. 結果が最終的にHiveクライアントに返され、ユーザーはHiveを利用して結果をクエリできます。

要说的是,Hive中的MapReduce任务执行流程与普通的MapReduce任务执行流程相似,不同之处在于用户可以使用HiveQL编写查询语句,然后由Hive将其转换为MapReduce作业进行执行。

コメントを残す 0

Your email address will not be published. Required fields are marked *


广告
広告は10秒後に閉じます。
bannerAds