Databricks总结页面（第二部分）

1 年 ago

韵, 科

9 minutes

我正在整理我自己翻译或发布的Databricks文章，会随时更新。

由于文章数量增加，所以进行了分割成两部分。第一部分在这里。

功能说明

Apace Spark是由Databricks的创始人们开发的并行分布式处理框架。

Pandas API on SparkでpandasとSparkの良いところ取り

Delta Lake是一种存储层软件，为数据湖提供性能和治理。它在云对象存储上实现ACID事务，并提供各种优化功能以实现快速搜索和更新。

DatabricksのPredictive I/Oとは？

通过将Spark的结构化流与Delta Lake结合使用，可以快速加载大量数据。

Databricksチュートリアル: エンドツーエンドのレイクハウスアナリティクスパイプラインの実行

使用Unity Catalog可以简化对Lakehouse资产的安全和治理管理。

データブリックスのUnity Catalogで実現する真のデータガバナンス

Delta Live Tables是一个基于Delta Lake的ETL管道开发和运维工具。

Delta Live Tablesのチュートリアルを通じた新機能のウォークスルー

Delta Sharing是一种协议，用于安全共享数据，并可以从外部使用的客户端安全访问Delta Lake的数据。

Databricksのボリューム機能による画像ファイルの取り扱い

MLflow是一款能够轻松管理机器学习模型生命周期的软件。它可以自动跟踪机器学习模型，并方便地进行模型状态管理。

[翻訳] MLflowのコンセプト

リアルタイムの構造化データによるRAGアプリケーションのレスポンス品質の改善

Databricks Feature Store是一个集中管理的特征存储库，它允许企业发现和共享特征，并确保在模型训练和推理过程中使用相同的代码进行特征计算。

DatabricksにおけるPythonユーザー定義関数を用いたオンデマンドでの特徴量計算

Databricks SQL是一个内置的SQL开发环境，旨在方便进行与数据湖相关的商业智能。

Databricks SQLのクエリエディタでテーブル名をパラメータにしたい

这是一个采用了玻璃盒子方法的AutoML。学习结果将全部以Python笔记本的形式输出，以便轻松进行逻辑的检查和修正。

Databricks AutoMLの時系列予測で各国の休日がサポートされてました

Databricks Partner Connect 是一个一站式的门户，可以轻松连接您的 Databricks Lakehouse 和各种经过验证的数据、分析和人工智能工具。

Databricks Partner Connectにおける新たなパートナーインテグレーションのご紹介

这是一个可以交换数据和笔记本等物品的市场。

DatabricksマーケットプレイスでMaaS Tech Japanの地理空間データを試す

Databricks 快速入门指南

Databricks免费试用