スパークSQLとは何か、SQLクエリを使用してデータを検索する方法は何ですか?

Spark SQLはApache Sparkの1つのコンポーネントであり、構造化データ処理をサポートするために使用されます。SQLクエリを実行するためのインターフェースを提供し、ユーザーがSQLステートメントを使用してデータをクエリできるようにします。

SQLクエリを使用してデータを検索するには、まずSparkSessionオブジェクトを作成し、その後、クエリを実行するためにデータをDataFrameにロードする必要があります。次に、SparkSessionのsql()メソッドを使用してSQLクエリを実行できます。

例えば、生徒情報が含まれたDataFrameがあり、それには名前、年齢、成績などのフィールドが含まれています。18歳以上の生徒を検索するためには、次のようなSQL文を使用することができます。

val spark = SparkSession.builder()
  .appName("Spark SQL Example")
  .getOrCreate()

val studentDF = spark.read.json("path/to/student.json")

studentDF.createOrReplaceTempView("students")

val result = spark.sql("SELECT * FROM students WHERE age > 18")

result.show()

上記のコードでは、最初にSparkSessionオブジェクトを作成し、学生情報を含むDataFrameをロードします。その後、DataFrameを一時ビューとして登録し、「students」としてSQLクエリで参照できるようにします。最後に、sql()メソッドを使用してSQLクエリを実行し、結果を表示します。

コメントを残す 0

Your email address will not be published. Required fields are marked *


广告
広告は10秒後に閉じます。
bannerAds