Pigでデータを並び替える方法は何ですか?
Pig内でデータをソートするには、ORDER BYステートメントを使用します。以下は簡単なソートの例です:
名前と年齢が含まれるデータセットがあると仮定して、年齢順にデータを並べ替えたい場合、次のPig Latinスクリプトを使用することができます。
-- 加载数据
data = LOAD 'input.txt' USING PigStorage(',') AS (name:chararray, age:int);
-- 排序数据
sorted_data = ORDER data BY age ASC;
-- 输出结果
STORE sorted_data INTO 'output' USING PigStorage(',');
この例では、まず名前と年齢が含まれるデータセットをロードし、その後、年齢の昇順でデータを並べ替えるORDER BY文を使用します。最後に、並べ替えたデータを出力ファイルに保存します。
注意すべきは、ORDER BY文は単一列のソートにのみ適用できることであり、複数列のソートが必要な場合は、複数のORDER BY文を使用するか、ORDER BY文の多列バージョンを使用することができるということです。