整理一下在Microsoft Certified: Azure Data Fundamentals(DP-900)中所要求的知識

2 年 ago

逸, 科

8 minutes

我获得了下列资格。

DP-900 ：微软Azure数据基础

AI-900、AI-100和AZ-900之后，这是今年的第四个认证。

这篇文章是我在资格取得过程中整理和巩固自己知识的成果。希望对将来要使用Azure或正在争取资格认证的人有所帮助。

另外，本文的结构遵循《DP-900：Microsoft Azure Data Fundamentals考试技能大纲（2021/10/25更新版本）》，但部分内容已进行了删减。敬请谅解。

■1. 核心数据的概念

简介

2.データ分析のコアコンセプト

■1.1.核心数据工作负载的类型

批量数据及其处理

大量のデータを都合の良いときに処理できる。
オフピーク時に実行するようにスケジュールできる。

欠点

データの取り込みから結果の取得までに待機時間が発生する。
バッチを処理する前に、バッチジョブのすべての入力データの準備ができている必要がある。
バッチジョブ中に発生するデータ、エラー、プログラムクラッシュの問題により、プロセス全体が停止する。

流媒体数据及其处理

即時のリアルタイム応答を必要とするタイムクリティカルな操作に最適である。

批量数据和流数据的区别

批处理和流处理除了数据处理方法之外还有其他的区别。

数据范围

ストリーム処理では、通常、受信した最新のデータ、またはローリング期間内(最後の30秒など)にのみアクセスできる。

数据大小

ストリーム処理は、個々のレコードまたは少数のレコードで構成される “マイクロバッチ” を対象としている。

表现

ストリーム処理は直ちに実行され、待機時間は数秒または数ミリ秒である。

分析

ストリーム処理は、単純な応答関数、集計、またはローリング平均などの計算に使用される。

关系型数据的特点 de

关系数据库的主要特点

SQLを使用すると、テーブルの作成、テーブル内の行の挿入、更新、削除、およびデータのクエリを行うことができる。

■1.2. 数据分析的核心概念

数据的可视化

可视化

Power BIを使用すると、複数の異なるデータソースに接続し、それらをデータモデルに結合することができる。

报告

レポートでは発生した内容を示すが、分析では発生した原因とその対処方法を説明することに重点が置かれる。

商务智能 (BI)

同じ業界の他の会社との比較を行うこのプロセスは、”ベンチマーキング” と呼ばれる。

基本图表类型

マトリックス: データを要約する表形式の構造である

ツリーマップ: ツリーマップは色分けされた四角形のグラフであり、サイズは各項目の相対値を表す。

分析方法

对所描述的内容进行分析

記述的分析手法では、大規模なデータセットを要約して、結果を利害関係者に説明する。

诊断的分析 de

記述的分析から得られた結果を利用して、さらに掘り下げて、原因を究明する。

预测性分析

技法としては、さまざまな統計的技法や、ニューラルネットワーク、デシジョンツリー、回帰などの機械学習技法がある。

处方的分析

過去の意思決定やイベントを分析して、さまざまな結果の可能性を推定することができる。

認知分析

認知的分析では、既存のデータやパターンから推論を引き出し、既存のナレッジベースに基づいて結論を導き出した後、将来の推論 (自己学習のフィードバックループ) のために、これらの結果をナレッジベースに追加することを試みる。

数据提取、转换、加载（ETL）和数据加载、转换、提取（ELT）处理

ETL（抽取、转换、加载）

基本的なデータクリーニングタスク
データの重複除去
個々のフィールドの内容の再フォーマット

ETL のよりストリーム指向のアプローチでは、スループットにより重点が置かれる。
ETLプロセスの読み込み時間は非常に長い
多くの場合、時間を節約するために3つのETLフェーズが並列に実行される。
ETLプロセスでは、ロードされているデータを変換するターゲットシステムは必要ない。(変換はETLシステムで行われる)

ELT（抽取、加载、转换）

ELTプロセスでは、ロードされるデータを変換するターゲットシステムが必要である。

数据处理的概念

データ処理の目的は、生データを1つまたは複数のビジネスモデルに変換することである。

■2. 如何在Azure平台上操作关系型数据

概述

4.SQL言語を使用したデータのクエリ手法

■2.1.关于关系型数据的工作负载

工作负荷

クエリのパフォーマンスを最適化するために、インデックスが使用される。

数据类型

インデックスおよびリレーションシップは、正確に維持される必要がある。

データには、強固な一貫性が必要である。

全データがすべてのユーザーおよびプロセスと100%整合性があることを保証した方法で、トランザクションが処理される。

個々のデータエントリのサイズが小規模から中規模である。

提供适合关系型工作负载的数据

选择部署方式，是选择自建还是云端？
若选择自建的方式来托管关系型数据库，则企业不仅需要购买数据库软件，还需要维护运行数据库所需的硬件设备。

该组织负责执行日常的各种管理任务，包括硬件和软件的维护、修复程序的应用、数据库的备份和在必要时进行恢复，以及维持平台的运营。

如果需要进行系统扩展，可升级或增加服务器来解决可扩展性问题。

另外，还需要在这些服务器上部署数据库，并且在运行期间需要将数据库下线，这是一项非常艰巨的任务。

在云端，大多数情况下，数据中心的工作人员可以处理这些操作中的许多，而无需发生停机时间（或者最小限度的停机时间）。
用户可以专注于数据本身，而将管理问题交给其他人处理（最终将以Azure费用形式计入）。

云端技术的方法利用虚拟技术，在企业外部进行应用托管。
无需资本支出，可以定期备份数据，企业仅需支付使用的资源费用。

在云计算中，由于一切都是预先配置好的，因此几乎可以立即进行资源调配。
因此，一旦企业订阅了集成到自己环境中的新软件，就可以立即开始使用。
即时资源调配不需要花费时间进行安装和配置，用户可以立即访问应用程序。

云基础设施服务（IaaS）还是云平台服务（PaaS）？

如果要将操作和数据库迁移到云端，通常有两个选项：基础架构即服务（IaaS）和平台即服务（PaaS）。

IaaS方法是在Azure虚拟机上安装SQL Server的方式。

IaaS方法适用于需要操作系统级访问的迁移和应用程序。SQL虚拟机可以进行”提升和转移”，即可以直接将本地解决方案复制到云内的虚拟机。系统在新位置也能够正常工作，除了考虑到环境变化进行的小规模配置更改（如网络地址更改）之外。

一方面，PaaS方法是指使用者无需自己创建虚拟基础架构、安装和管理数据库软件，而是由PaaS解决方案来完成这些任务。

根据预设的数据库规模、用户数量和所需性能，一旦指定所需资源，Azure将自动创建所需的虚拟机、网络和其他设备。

通常情况下，我们可以根据数据量和正在进行的任务量的变化，快速进行扩容或缩减（增加或减少资源的大小和数量）。

这种缩放是由Azure处理的，所以用户不需要手动添加或删除虚拟机，也不需要以其他方式进行配置操作。

在Azure中为关系数据库准备的多个PaaS解决方案。

など

PaaS存在着一些功能上的限制，不能使用所选择的数据库管理系统的所有功能。

这些限制通常是出于安全问题的考虑。例如，基础操作系统和硬件可能不会暴露给应用程序。

关系型数据结构

WHERE句でこの列を指定するクエリをユーザーが実行すると、データベース管理システムは、このインデックスを使用してテーブル全体を1行ごとスキャンする場合よりも速くデータを取り込むことができる。

ビューは、クエリの結果セットに基づく仮想テーブルである

CREATE VIEW P1Orders AS
SELECT CustomerID, OrderID, Quantity
FROM Orders
WHERE ProductID = "P1"

ビューでは、テーブルを結合することもできる。

2.2. Azure云数据服务中的关系型数据服务。

平台即服务（PaaS）、基础设施即服务（IaaS）和软件即服务（SaaS）解决方案

在深入了解Azure数据服务之前，我们需要先理解一些常用术语，这些术语用于解释在Azure上托管数据库的不同方法。

基础设施即服务

このアプローチは、組織内でシステムを実行する方法と多くの点で似ているが、利用者がハードウェアの購入や保守について心配する必要がないという点が異なる。

PaaS即平台即服务

このスケーリングはAzureによって処理されるため、利用者が仮想マシンを手動で追加または削除したり、他の形式での構成を実行したりする必要はない。

软件即服务 (SaaS)

Azure で使用できる一般的な SaaSパッケージには、Microsoft 365(以前の Office 365)などがある。

Azure SQL家族的产品

在 Azure 虚拟机上运行的 SQL Server

ただし、SQL Serverソフトウェアを保守し、データベースを毎日稼働させ続けるためのさまざまな管理タスクを実行する責任は、引き続き利用者が負う必要がある。

蓝色SQL数据库

Single Database
Elastic Pool：既定で複数のデータベースが同じリソース(メモリ、データストレージ領域、処理能力など)をマルチテナントで共有できるという点がSingle Databaseと異なる。

Azure SQL Databaseは、低コストと管理の最小化を実現するための最適な選択肢となる。
オンプレミスの SQL Serverインストールとの完全な互換性はない。
リンクサーバーがサポートされていない。
暗号化を提供することでデータを保護する。

転送中のデータ：トランスポート層セキュリティ

保存データ：Transparent Data Encryption

使用中のデータ：Always Encrypted

Azure SQL Databaseサーバーレスでは、ワークロードの需要に基づいてコンピューティングが自動的にスケーリングされ、1秒あたりのコンピューティング使用量に対して請求される。
これは、Azure SQL Databaseの単一データベース用のコンピューティングレベルである。
またサーバーレスコンピューティングレベルでは、アイドル期間にデータベースを自動的に一時停止する。
このときはストレージのみに課金され、再びアクティブになると自動的にデータベースが再開される。

Azure SQL 数据库托管实例

フェールオーバーグループは、プライマリリージョンでの機能停止により、すべてまたは一部のプライマリデータベースが使用できなくなった場合に、1つの単位として別のリージョンにフェールオーバーできるマネージドインスタンス内の、または単一サーバーによって管理されるデータベースの名前付きグループである。

SQL 数据库托管实例、单一数据库、弹性池的区别是什么？

Azure提供了适用于PostgreSQL的数据库、适用于MariaDB的Azure数据库和适用于MySQL的Azure数据库。

■ 2.3 基本的的关系型数据库管理任务

关于关系型数据服务的供应和部署。

ユーザーは、必要なリソースのサイズ (ディスク領域、メモリ、コンピューティング能力、ネットワーク帯域幅の量) を決定するパラメーターを指定するだけである。

方法的展开

Azure portal
Azure コマンドラインインターフェイス (CLI)

Windows、macOS、Linux のコンピューターで実行できる。

Azure PowerShell

CLI と同様に、PowerShell も Windows、macOS、Linux で使用できる。

Azure Resource Manager テンプレート

デプロイするサービス(1 つまたは複数)を、JSON(JavaScript Object Notation)と呼ばれる形式のテキストファイルで記述する。

数据安全组件

基本连接问题包括从本地访问、从Azure VNet访问、从互联网访问、身份验证和防火墙等。

接続を有効にするには、サービスの”ファイアウォールと仮想ネットワーク”ページを使用する。

Assessmentでは、潜在的なセキュリティの脆弱性が特定され、それを軽減するための措置が推奨される。

查询工具（例如Azure Data Studio、SQL Server Management Studio、sqlcmd）

Azure 数据工作室

Windows、macOS、およびLinuxで使用可能。

SQL Server管理工作室(SSMS)

Windowsでのみ使用可能。

sqlcmd (数据库命令行实用工具)

sqlcmdユーティリティを使用すると、Transact-SQLステートメントやシステムプロシージャ、スクリプトファイルを使用可能なさまざまなモードで入力できる。

SQL Server 数据工具（SSDT）

SSDTを使用すると、サーバーインスタンスに接続せずに、プロジェクト内のオブジェクトの定義を追加、変更、または削除することで、オフラインデータベースプロジェクトを作成し、スキーマの変更を実装できる。

■ 使用SQL语言进行数据查询的方法

数据定义语言（DDL）和数据操作语言（DML）

数据操作语言（DML）

SELECT：テーブルから行を選択する/読み取る
INSERT：テーブルに新しい行を挿入する
UPDATE：既存の行を編集する/更新する
DELETE：テーブル内の既存の行を削除する

数据定义语言(DDL)

CREATE：データベース内にテーブルやビューなどの新しいオブジェクトを作成
ALTER：オブジェクトの構造を変更
DROP：データベースからオブジェクトを削除
RENAME：既存のオブジェクトの名前を変更

在Azure SQL数据库、Azure Database for PostgreSQL和Azure Database for MySQL中查询关系型数据。

可以使用以下任何一种工具来查询存储在Azure SQL Database中的数据。

SQL Server Data Tools

Azure数据库用于PostgreSQL
可用工具示例

psql コマンドラインユーティリティ

Azure数据库用于MySQL
可用的工具示例

MySQL Workbench

■3. 如何在Azure中操作非关系型数据

简要概述

3.非リレーショナルデータの基本的な管理タスク

3.1. 非关系型数据工作负载

非关系型数据的特性

非リレーショナルデータベースを設計するときは、データベース管理システムの機能と、それによってサポートされる必要があるクエリの種類を理解しておくことが重要である。

非关系型数据的类型

通常情况下，非关系型数据可以分为半结构化和非结构化两个类别。

半结构化数据

アプリケーションでドキュメントを読み取ったら、JSONパーサーを使用してドキュメントをコンポーネントフィールドに分解し、データの個々の部分を抽出できる。

{
  "ID": "1",
  "Name": "Mark Hanson",
  "Telephone": [ 
    { "Home": "1-999-9999999" }, 
    { "Business": "1-888-8888888" }, 
    { "Cell": "1-777-7777777" }
  ],
  "Address": [ 
    { "Home": [
      { "StreetAddress": "121 Main Street" }, 
      { "City": "Some City" },
      { "State": "NY" }, 
      { "Zip": "10110" }
    ] },
    { "Business": [
      { "StreetAddress": "87 Big Building" },
      { "City": "Some City" },
      { "State": "NY" },
      { "Zip": "10111" }
    ] }
  ] 
}


{
  "ID": "2",
  "Title": "Mr",
  "Name": "Jeff Hay",
  "Telephone": [ 
    { "Home": "0044-1999-333333" }, 
    { "Mobile": "0044-17545-444444" }
  ],
  "Address": [
    { "UK": [
      { "StreetAddress": "86 High Street" },
      { "Town": "Some Town" }, 
      { "County": "A County" }, 
      { "Postcode": "GL8888" }, 
      { "Region": "UK" }
    ] },
    { "US": [
      { "StreetAddress": "777 7th Street" }, 
      { "City": "Another City" },
      { "State": "CA" },
      { "Zip": "90111" }
    ] }
  ]
}

Avro(アブロ)は行ベースの形式で、Apacheによって作成されたものである。

各レコードには、レコード内のデータの構造を説明するヘッダーが含まれていおり、ヘッダーはJSONとして格納される。
データはバイナリ情報として格納される。
アプリケーションでは、ヘッダー内の情報を使用してバイナリデータを解析し、格納されているフィールドを抽出する。
Avroは、データを圧縮し、必要なストレージとネットワーク帯域幅を最小限に抑えるのに非常に優れた形式である。

ORC(Optimized Row Columnar(最適化された行の列)形式)では、データは行ではなく列として編成される。

これは、Apache Hiveでの読み書き操作を最適化するために、HortonWorksによって開発された。

Hiveはデータウェアハウスシステムであり、非常に大規模なデータセットに対する高速なデータ集計とクエリ実行がサポートされている。
ORCファイルには、データの”ストライプ”が含まれている。
各ストライプには、列または列のセットのデータが保持される。
ストライプには、ストライプ内の行へのインデックス、各行のデータ、および各列の統計情報(件数、合計、最大、最小など)が保持されているフッターが含まれる。

Parquet(パーケイ)は、別の列形式のデータ形式であり、ClouderaとTwitterによって作成された。
Parquetファイルには、行グループが含まれている。
各列のデータは、同じ行グループにまとめて格納される。
各行グループには、1つ以上のデータチャンクが含まれる。
Parquetファイルには、各チャンクに格納されている行のセットを記述するメタデータが含まれている。
アプリケーションでは、このメタデータを使用して、特定の行セットに対する適切なチャンクをすばやく検索し、これらの行に対して指定された列のデータを取得することができる。
Parquetは、入れ子になったデータ型の効率的な格納と処理に特化している。
非常に効率的な圧縮とエンコードスキームがサポートされている。

非结构化数据 huà

Azureでは、通常、ビデオやオーディオのデータはブロックBLOB(Binary Large OBject)としてAzureストレージアカウントに格納する。

决定何时使用非关系型数据

非关系型数据库非常适合以下场景。

これらのシステムでは、通常、頻繁に発生するアクティビティによって大量のデータが取り込まれる。
非リレーショナルデータベースを使用すると、この情報を非常にすばやく格納できる。
その後、Azure Machine Learning、Azure HDInsight、Microsoft Power BIなどの分析サービスで、このデータを使用できる。
また、データがデータベースに到着するとトリガーされるAzure Functionsを使用して、リアルタイムでデータを処理できる。

小売とマーケティング

Microsoftでは、Windows StoreおよびXbox Liveの一部として実行される独自のeコマースプラットフォームにCosmosDBが使用されている。
また、カタログデータの格納用と、注文処理パイプラインでのイベントソーシング用に、小売業界でも使用されている。

ゲーム

データベース層は、ゲームアプリケーションの重要なコンポーネントである。
最近のゲームはモバイル/コンソールクライアントでグラフィック処理を行うが、ゲーム内統計、ソーシャルメディア統合、スコアボードなどの個人向けにカスタマイズされたコンテンツの配信は、クラウドに依存している。
多くの場合、ゲームでは、魅力的なゲーム内エクスペリエンスを提供するために、読み取りと書き込みに対して1桁ミリ秒の待機時間が要求される。
ゲームデータベースは高速であることが必要であり、新しいゲームのリリース時や機能の更新時に、要求レートの急増に対処できる必要がある。

Webアプリケーションとモバイルアプリケーション

Azure Cosmos DBなどの非リレーショナルデータベースは、Webアプリケーションやモバイルアプリケーションでよく使用されており、ソーシャルインタラクションのモデル化、サードパーティサービスとの統合、充実した個人用エクスペリエンスの構築に適している。
Cosmos DB SDK(ソフトウェア開発キット)を使用すると、一般的な Xamarinフレームワークを使用して、iOSおよびAndroidのリッチなアプリケーションを構築できる。

Azure提供的非关系型数据。

用于非关系型工作负载的Azure数据服务。

Microsoft Azure提供了多种技术来存储非关系型数据。
每种技术都有其独特的优势，适用于特定的场景。

Azure Cosmos DB

Azure表格存储

テーブル内のすべての行にはキーが存在する必要があるが、その点を除けば、各行の列は異なっていても構わない。

同じパーティションキーを共有する行は、一緒に格納される。

可用性を高めるには、コストがかかるが、geo冗長ストレージにテーブルを作成できる。

この場合、各テーブルのデータは、数百マイル離れた別のリージョンにさらに3回レプリケートされる。

Azure Table Storageは、データを保護するのに役立つ。
セキュリティとロールベースのアクセス制御を構成して、データを見る必要があるユーザーまたはアプリケーションだけが、実際にデータを取得できるようにすることができる。

主要优点

パーティションキーと行キーをクエリ条件として指定した場合、データをすばやく取得できる。

缺点

キー以外のデータでフィルター処理や並べ替えを行うことは困難。

Azure BLOB 存储

Azure Table Storageと同様に、Azureストレージアカウントを使用してBLOBを作成する。

受Azure支持的BLOB

ブロックのセットとして処理される。
各ブロックのサイズは可変で、最大値は100MB。
ブロックは、個別の単位として読み書きできる最小のデータ量。
1つのブロックBLOBで最大5万個のブロックを格納でき、最大サイズは4.7TBを超える。
ブロックBLOBは、あまり変更されない不連続で大きなバイナリオブジェクトを格納するのに最適。

ページBLOB

固定サイズ512バイトのページのコレクションとして編成される。
ランダムな読み書き操作をサポートするように最適化されている。
最大8TBのデータを保持できる。
Azureでは、仮想マシン用の仮想ディスクストレージを実装するために、ページBLOBが使用されている。

追加BLOB

追加操作をサポートするために最適化されたブロックBLOB。
追加BLOBの末尾にのみブロックを追加できる。
既存のブロックの更新または削除はサポートされていない。
各ブロックのサイズは可変で、最大値は4MB。
追加BLOBの最大サイズは、195GB強。

三个访问层

頻繁にアクセスされるBLOBに使用する。
BLOBデータは、高パフォーマンスのメディアに格納される。

クール層

この層はパフォーマンスが低く、ホット層と比較してストレージ料金が安くなる。
アクセス頻度の低いデータに使用する。
ホット層でBLOBを作成し、後でクール層に移行することができる。
クール層からホット層にBLOBを戻すこともできる。

アーカイブ層

この層では、ストレージコストは最も安くなるが、待機時間は長くなる。
失われてはならないけれども、必要になることはあまりない、履歴データ用に意図されている。
アーカイブ層のBLOB、実質的にオフライン状態で格納される。
データが使用可能になるまでに数時間かかることがある。
アーカイブ層からBLOBを取得するには、アクセス層をホットまたはクールに変更する必要がある。
その後、BLOBは”リハイドレート”される。
リハイドレーションプロセスが完了した後でのみ、BLOBを読み取ることができる。

Azure文件存储

共有データはリージョン内でローカルにレプリケートされるが、第2のリージョンにgeoレプリケートすることもできる。

また、Azure File Storageとアプリケーションの間で転送中のデータの暗号化を有効にすることができる。

两个表演水平

ハードディスクベースのハードウェアがデータセンターで使用される。
最大300MB/秒のスループットを提供することが目標とされている。

Premiumレベル

ソリッドステートディスクが使用される。
より高いスループットが提供されるが、料金も高くなる。

Azure Cosmos DB 蓝色宇宙数据库

ドキュメント：キーによって識別されるフィールドのコレクション。

各ドキュメントのフィールドは異なる場合があり、フィールドには子ドキュメントが含まれることがある。
多くのドキュメントデータベースでは、ドキュメントの構造を表すためにJSON(JavaScript Object Notation)が使用される。
ドキュメントには、小さなバイナリオブジェクトを含めて、最大で2MBのデータを保持できる。
ドキュメントの一部として大きなBLOBを格納する必要がある場合は、Azure Blob Storageを使用し、ドキュメントにBLOBへの参照を追加する。
Cosmos DBでは、データベースとコンテナーでスループットを設定できる。
Cosmos DBには、一連の既知のインターフェイスを使用してこれらのドキュメントにアクセスできるAPIが用意されている。

受支持的API

ドキュメントに対してSQLに似たクエリ言語が提供されており、SELECTステートメントを使用してドキュメントを識別および取得できる。

Table API

Azure Table Storage APIを使用してドキュメントを格納および取得できる。
既存のアプリケーションを変更することなく、Table Storageから Cosmos DBに切り替えることができる。

MongoDB API

MongoDBは、独自のプログラムインターフェイスを備えた、よく知られているもう1つのドキュメントデータベース。
MongoDBアプリケーションに変更を加えることなく Cosmos DBデータベースに対して実行できる。

Cassandra API

Cassandraは、列ファミリデータベース管理システム。
CassandraデータベースとアプリケーションをCosmos DBに迅速に移行できる。

Gremlin API

Gremlin APIにより、グラフデータベースインターフェイスがCosmos DBに実装される。

■ 3.3. 非关系型数据的基本管理任务

可以使用与关系数据的基本管理任务相同的思维方式。

非リレーショナルデータの管理ツールを特定する

■4. 在Azure上进行的分析工作负载

总览

4.Microsoft PowerBIでのデータの視覚化

■4.1.工作负载分析

事务工作负载

大量の書き込みと中程度の読み取り
書き込み時のスキーマ
正規化されたデータ

数据分析商店

数据分析存储提供了一个大规模并行解决方案，用于数据的导入、存储和分析。
为了最大程度地提高可扩展性，数据被分散在多台服务器上。

データ分析
企業のBI

データ型

複数のソースからの履歴データ。
通常は、”star”または”snowflake”スキーマで非正規化され、ファクトテーブルおよびディメンションテーブルで構成されている。
通常は、スケジュールに基づいて新しいデータと共に読み込まれる。
多くの場合、ディメンションテーブルにはエンティティの複数の履歴バージョンが含まれ、”緩やかに変化するディメンション” として参照される。

交易工作负载与分析工作负载的区别在于什么？

批处理与实时处理的区别 yǔ de

数据仓库工作负载

判断何时需要数据仓库解决方案

■4.2. 最新的数据仓库组件

・针对最新的数据仓库需求的Azure数据服务

・最新的数据仓库架构和工作负载

蓝色数据工厂

概览

通过云端基于ETL和数据整合服务，可以创建数据驱动的工作流程来大规模控制数据的移动和转换。

使用Azure数据工厂可以创建数据驱动的工作流程（管道），从各种数据存储中导入数据并进行调度。

使用计算服务（如Azure HDInsight Hadoop、Azure Databricks、Azure SQL Database等）和数据流，可以可视化地创建复杂的ETL流程来转换数据。
Azure Data Factory管道可以将参数传递给Databricks笔记本。

此外，还可以将转换后的数据发布到Azure Synapse Analytics等数据存储中，以便从商业智能(BI)应用程序中使用。

通过使用Azure Data Factory，最终将原始数据整理到有意义的数据存储和数据湖中，并能更准确地应用于决策。

Azure Data Factoryは、SSISソリューションをクラウドにリフト&シフトして、すぐに利用できるようにする機能を提供する。

主要组件 (zhǔ zǔ

1つの作業単位を実行するための複数のアクティビティから成る論理的なグループ。
パイプライン内のアクティビティがまとまって1つのタスクを実行する。
アクティビティを個別にではなく、セットとして管理できることがメリット。

アクティビティ

アクティビティは、パイプライン内の処理ステップを表す。
データ移動アクティビティ、データ変換アクティビティ、制御アクティビティの3種類のアクティビティがサポートされている。

データセット

データセットは、データストア内のデータ構造を表している。
アクティビティ内でデータを入力または出力として使用したい場合は、そのデータをポイントまたは参照するだけで済む。

リンクされたサービス

データソースへの接続を定義するもので、Data Factoryが外部リソースに接続するために必要な接続情報を定義する。

データフロー

あらゆるサイズのデータの変換に使用できるデータ変換ロジックのグラフを作成して管理する。

統合ランタイム：Integration Runtime (IR)

アクティビティとリンクされたサービスとを橋渡しする。
異なるネットワーク環境間でデータ統合機能を提供するためにAzure Data FactoryとAzure Synapseのパイプラインによって使用されるコンピューティングインフラストラクチャ。
統合ランタイムの種類

Azure統合ランタイム

データコンプライアンスの要件が厳しく、データが地理的な特定の場所を離れないようにする必要がある場合は、Azure IRを明示的に特定のリージョンに作成し、リンクされたサービスがConnectViaプロパティを使用してこの IR を指すようにすることができる。

セルフホステッド(自己ホスト型)統合ランタイム
Azure-SSIS

既存のSSISワークロードをリフトアンドシフトするために用いる

蓝色数据湖存储

このため、Data Lake Storage Gen2はリアルタイムソリューションとバッチソリューションの両方の基礎として使用できる。

特点

BLOBストレージでは、ディレクトリ構造を模倣することしかできない。

Portable Operating System Interface(POSIX)のファイルとディレクトリのアクセス許可をサポートしており、データに対してより細かいロールベースのアクセス制御(RBAC)を有効にすることができる。

セキュリティプリンシパルは、Azureリソースへのアクセスを要求しているユーザー、グループ、サービス、または管理対象IDを表すオブジェクトであり、これらのセキュリティプリンシパルのいずれかに、ロールを割り当てることができる。

Hadoop分散ファイルシステム(HDFS)と互換性がある。

Hadoopは非常に柔軟でプログラム可能な分析サービスであり、大量のデータを調べるために多くの組織で使用されている。

ローカル冗長ストレージ(LRS)を使用して1つのデータセンター内に、またはgeo冗長ストレージ(GRS)オプションを使用してセカンダリリージョンに、データの冗長性を提供するAzure Blobレプリケーションモデルを使用している。

Azure Databricks 蓝色数据湖

Azure Databricks是为Microsoft Azure云服务平台优化的数据分析平台。
Azure Databricks提供了三个环境，专为开发数据集中型应用程序而设计。

Databricks SQL 数据分析

提供了一个易于使用的平台，可以在数据湖中运行SQL查询，创建多种可视化类型，从不同的角度探索查询结果，并构建和分享仪表盘。

数据科学在Databricks的工程应用

这是一个基于Apache Spark的分析平台，有时也被简称为“工作空间”。

提供能够促进数据工程师、数据科学家和机器学习工程师之间合作的对话式工作空间。

在使用大数据管道时，数据（原始数据或结构化数据）可以通过Azure Data Factory按批次拆分并导入Azure，也可以通过Apache Kafka、Event Hubs和IoT Hub以几乎实时的方式进行流式传输。

此数据旨在存储在为长期持久保管而设计的数据湖（Azure Blob Storage或Azure Data Lake Storage）中。

作为工作流程分析的一部分，可以使用Azure Databricks从多个数据源读取数据，并使用Spark将其转化为创新的分析信息。

Databricks 机器学习

这是一个集成的端到端机器学习环境，其中包括实验追踪、模型训练、功能开发和管理以及功能和模型提供的管理服务。

Databricksは様々なデータソースへのコネクトが用意されている。

Databricksスノーフレーク(Snowflake)コネクタを使用して、スノーフレークに対してデータの読み取りと書き込みを行うことができる。
スノーフレーク(Snowflake)スキーマは、スタースキーマのバリエーションであり、ディメンションテーブルの正規化を特徴としている。
「スノーフレーク」は、スタースキーマのディメンションテーブルを正規化する方法である。
スノーフレークスキーマはスタースキーマに似ている。
しかし、スノーフレークスキーマでは、ディメンションは複数の関連するテーブルに正規化されるが、スタースキーマのディメンションは非正規化の状態で、各ディメンションは単一のテーブルで表される。
複雑なスノーフレーク形状は、スノーフレークスキーマのディメンションが複雑で、複数のレベルの関係があり、子テーブルに複数の親テーブルがある場合に現れる。

スタースキーマ

スノーフレークスキーマ

Azure Synapse Analytics can be paraphrased in Chinese as “Azure Synapse分析” or “Azure 协作分析”.

Azure Synapse Analytics是一种集成的分析平台，将数据仓库、大数据分析、数据集成和可视化融合在一个环境中。

这个是将在企业数据仓库中使用的SQL技术、用于大数据的Spark技术、用于日志和时间序列分析的Data Explorer、用于数据整合和ETL以及ELT的Pipelines、Power BI、CosmosDB、AzureML等其他Azure服务的紧密集成的长处结合而成的。

总结

制御ノードはアーキテクチャの頭脳であり、すべてのアプリケーションと対話するフロントエンドとなる。

MPPエンジンは制御ノードで実行され、並列クエリを最適化および調整する。
処理要求を送信すると、制御ノードによってより小さな要求に変換され、データの個別のサブセットに対して並行して実行される。

計算(コンピューティング)ノードは計算能力を提供する。

処理されるデータは、ノード全体に均等に分散される。

Azure Synapse Analyticsは2つの計算(コンピューティング)モデル(SQLプール、Sparkプール)をサポートしている。
SQLプール

各計算(コンピューティング)ノードでは、Azure SQL DatabaseとAzure Storageを使用してデータの一部を処理する。
Transact-SQLステートメントの形式でクエリを送信すると、Azure Synapse Analyticsによって実行される。
通常のSQL Serverデータベースエンジンとは異なり、Azure Synapse Analyticsではさまざまなソースのデータを受信できる。
これを行うために、Azure Synapse AnalyticsにはPolyBaseというテクノロジが使用されている。
PolyBaseを使用すると、リレーショナルソースと非リレーショナルソース (区切り付きテキストファイル、Azure Blob Storage、Azure Data Lake Storageなど) からデータを取得できる。
読み込んだデータをSQLテーブルとしてSynapse Analyticsサービス内に保存できる。

Notebooksで書いたコードで構成されるSparkジョブを実行する。
Notebooks用のコードは、C#、Python、Scala、またはSpark SQL (Transact-SQLとは異なる方言のSQL)で書くことができる。

Azure Synapse SQL

データウェアハウスおよびデータ仮想化のシナリオを実装できる分散クエリシステム。
サーバーレスと専用の両方のリソースモデルが用意されている。

Azure Synapse Pipelines

Azure Data Factory の機能を利用するクラウドベースの ETL およびデータ統合サービス

Azure Synapse Link

クラウドネイティブのハイブリッドトランザクションと分析処理 (HTAP) の機能。
運用データにアクセスでき、リアルタイムに近い分析を実行できる。

Azure Synapse Studio

すべてのAzure Synapse Analytics機能にアクセスできる単一のWeb UI。

Azure分析服务

次に、Analysis Servicesを使用してこの情報の詳細な調査を実行し、Power BIでこのような問い合わせの結果を視覚化できる。

AzureHDInsight (Azure高清大数据)

Sparkと同様に、HDInsightは、Apache Kafkaや Apache Hadoop処理モデルなどのストリーミングテクノロジをサポートしている。

Azure Stream Analytics – Azure流分析

简述

Azure Stream Analytics是一个实时分析和复合事件处理引擎，旨在同时分析和处理来自多个源的大量高速流式数据。

模式和关系可以在从多个输入源中提取的信息中进行识别，这些输入源包括设备、传感器、点击流、社交媒体供稿和应用程序。

可以使用这些模式来触发动作，从而启动工作流程，例如创建警报、将信息提供给报告生成工具，或者将转换后的数据保存以便后续使用。

同样，Stream Analytics可以在Azure IoT Edge中使用，这样可以处理IoT设备上的数据。

例：

Stream Analyticsは、参照データの格納レイヤーとしてAzure Blob StorageおよびAzure SQL Databaseをサポートする。

■4.3 在Azure上进行数据导入和处理

一般的的数据读取方法是什么？

数据的导入是数据仓库解决方案的第一部分，也是无疑最重要的部分。
如果在这个阶段数据丢失，导致所获得的信息不准确，可能无法体现作为商业决策基础的事实。
在大数据系统中，数据的导入必须具备足够的速度来捕获可能存在的大量数据，并具备足够的计算能力及时处理这些数据。

Azure提供了几种可用于数据导入的服务。

など

AzureData Factory的组件（管道，活动等）

Azure Data Factory 可以在本地和云端的两个环境中，用于从各种源中读取原始数据并进行提取和转换的服务。
在数据工厂中，当提取数据时，可以在将数据加载到数据仓库等存储库之前对数据进行清理、转换和重建。
一旦数据进入数据仓库，便可进行分析。
Azure Synapse Analytics 的数据集成功能是基于 Azure Data Factory 的，可以从 Azure Synapse Studio 内进行使用。

Data Factoryは、オーケストレーションを使用して、さまざまなサービスを使用して複雑な操作を実行する一連のタスクを組み合わせて自動化する。

Azure Data Factory使用各种资源，包括链接服务、数据集和管道。

トリガーを使用すると、計画されたスケジュールに従って、または繰り返しの間隔で、またはAzureでのファイルの到着などのイベントが発生したときに、パイプラインが発生するようにスケジュールできる。

数据处理选项

蔚蓝 Synapse 分析

Azure Databricks: Azure 数据分析平台

ノートブックを使用してDatabricksアプリケーションを作成する。

Azure HDInsight 是一种数据分析服务。

HDInsightを使用して、Hadoop Map / Reduce、Apache Spark、Apache Hive、Apache Kafka、Apache Storm、Rなどのフレームワークを使用してデータを分析できる。

Azure 数据工厂

■4.4. 解释如何在Microsoft PowerBI中进行数据可视化

Power BI是一個由軟件服務、應用程序和連接器組成的集合，通過將它們結合在一起，可以從不相關的數據源中獲得有組織且實際互動的洞察。

可以使用各种数据，如Excel电子表格、云端和本地混合数据仓库集合。

使用Power BI，可以轻松实现与您的数据源的连接，对重要信息进行可视化和探测，并与需要的任意用户或所有用户共享。

Power BI的组成要素

Windows、iOS、Androidデバイス向けの Power BIモバイルアプリ

页码标记的报告的作用

Power BI Report Builderは、ページ付けされたレポートを作成できるツールである。

互动型报告的作用

デザイナーには、視覚的な相互作用のオンとオフを切り替えるオプションと、既定のクロスフィルター処理、クロス強調表示、および詳細表示の動作を変更するオプションがある。

仪表盘的作用

他のユーザーまたはグループは、Power BIサービスまたはモバイルデバイスを使用しているときにダッシュボードを操作できる。

在PowerBI中的工作流程

在Power BI中，通常的工作流程从连接数据源并在Power BI Desktop中创建报表开始。

然后，通过从Power BI Desktop发布报告到Power BI服务并共享，使Power BI服务和移动设备的商业用户能够查看并操作报告。

■参考文献
(Only need one option:)

■文献资料

Microsoft Learn