在Databricks中处理外部数据

在Databricks上与外部数据进行交互 | Databricks在AWS上 [截至2022年12月1日的版本]。

這本書僅為摘譯,不能保證內容的準確性。有關準確的內容,請參考原文。

Databricks Runtime为与数据湖的数据导入和导出提供了简化操作的著名数据源和格式绑定。本书提供了有助于识别内建支持格式和集成的信息。同时,还可访问扩展Databricks以与更多系统进行交互的方法。

在Databricks中,我们提供了针对大量数据加载和导入的优化措施。

另外,在Databricks中,我们支持SQL和数据框架用户进行查询联邦。请查看Databricks查询联邦是什么?

如果您之前没有进行过Databricks数据的读写操作,建议您尝试使用Python或Scala的数据框架教程。即使是对熟悉Apache Spark的用户来说,这个教程也可以帮助他们应对与访问云数据相关的新挑战。

请查看Databricks Partner Connect是什么?它为多个企业解决方案提供了优化并易于设置的集成。

在Databricks上可以使用的数据格式有哪些?

Databricks内置关键字绑定,可对与Apache Spark原生支持的所有数据格式进行操作。就像Apache Spark使用Parquet一样,Databricks将Delta Lake作为默认协议来读写数据和表格。

所有以下数据格式在Apache Spark的数据帧和SQL中都具有内置的关键字设置。

    • Delta Lake

 

    • Parquet

 

    • ORC

 

    • JSON

 

    • CSV

 

    • Avro

 

    • Text

 

    Binary

此外,Databricks还提供了加载MLflow实验的自定义关键字。

需要特别考虑的数据格式

在以下的数据格式中,可能需要额外的考虑或特别的考虑才能使用。

画像はbinaryデータとしてロードすることをお勧めします。

XMLはネイティブではサポートされていませんが、ライブラリをインストールすることで使用することができます。
また、HiveテーブルはApache Sparkでネイティブでサポートされていますが、Databricksでの設定が必要となります。
Databricksでは圧縮されている様々なファイルフォーマットを直接読み込むことができます。必要に応じて圧縮ファイルをunzipすることができます。

LZOにはcodecのインストールが必要となります。

请查看Apache Spark数据源的通用加载/保存功能和通用文件源选项。

如何设置在Databricks中使用的云存储?

在Databricks中,我们使用云对象存储来存储数据文件和表。在部署工作区时,Databricks会设置一个称为DBFS根的云对象存储位置。您也可以设置与账户的其他云对象存储位置的连接。

在几乎所有的情况下,使用Apache Spark在Databricks上操作的数据文件都会存储在云对象存储中。有关设置连接的指南,请参阅以下文件。

    • Working with data in Amazon S3

 

    • Access Azure Data Lake Storage Gen2 and Blob Storage

 

    • Google Cloud Storage

 

    Accessing Azure Data Lake Storage Gen1 from Databricks

在Databricks上连接的数据源是什么?

您可以使用JDBC连接多个数据源。Databricks运行时包含许多JDBC数据库的驱动程序,但连接到您的数据库可能需要安装驱动程序或其他版本的驱动程序。支持的数据库包括:

    • Query PostgreSQL with Databricks

 

    • Query MySQL with Databricks

 

    • Query MariaDB with Databricks

 

    Query SQL Server with Databricks

可以与Databricks进行集成的数据服务有哪些?

在以下的数据服务中,需要进行连接设置、安全凭据和网络设置。可能需要具备AWS账户和Databricks的管理员或超级用户权限。另外,可能需要创建Databricks库并安装在集群上的一些情况。

    • Query Amazon Redshift with Databricks

 

    • Google BigQuery

 

    • MongoDB

 

    • Cassandra

 

    • Couchbase

 

    • ElasticSearch

 

    • Neo4j

 

    • Redis

 

    • Read and write data from Snowflake

 

    • Azure Cosmos DB

 

    Query data in Azure Synapse Analytics

数据支架免费试用

数据湖免费试用

广告
将在 10 秒后关闭
bannerAds