我研究了与Snowflake结合使用的AWS服务
这次的任务
我在观看了Snowflake的YouTube频道上关于结合AWS服务和Snowflake构建数据基础设施的视频后,对其中所提到的一些问题进行了调查。(我也引用了视频中的架构图。)
调查与Snowflake集成使用的AWS服务
我在视频中看到介绍可以与Snowflake协同使用的AWS服务,所以我简单地进行了一下调查。
数据管道系统
通过以下服务,可以将数据从数据源加载到S3或Snowflake。
胶水
具有以下功能。
-
- ETLジョブ:データソースからデータを抽出した後、データレイクやDWHにデータを連携する機能。
-
- データカタログ:ETLジョブのデータソースなどのデータの説明を記載しておける。
-
- クローラ:データレイクを定期定期にチェックし、メタデータをデータカタログに反映する機能。
- ワークフロー:ETLジョブ、クローラ、データカタログ出力までの一連の処理を自動化できる。
尽管在AWS Lambda上基本上可以执行相同的操作,但由于它在15分钟后会超时,所以在进行大规模数据处理时,Glue更适合使用。然而,由于Lambda更多地与CloudWatch Events和S3等协作服务进行整合,因此通常情况下更多人选择Lambda。
应用流
可实现与Glue类似的功能,但面向SaaS的数据协同工具,如Salesforce和Slack,其数据协同来源受到限制。无需编写代码即可自动化数据流程。
2) 流媒体数据系统
可以使用以下工具来处理流媒体数据。
Kinesis数据流
可以实时收集大量连续发送的数据流,并将其传送到下一个服务的服务。
通过将Lambda附加到Kinesis Streams,还可以将其传输到S3或DWH。
数据火箭
可以将不断发送的大量流数据传输到S3或DWH。
莫斯科
亚马逊托管的Apache Kafka流处理平台,用于收集、处理和存储流数据。该服务可以自动执行和管理Apache Kafka的运行。
Apache Kafka是一种用于解决诸如管理困难等缺点的服务。
3) Spark处理系统
电子病历 zǐ lì)
亚马逊弹性MapReduce(Amazon Elastic MapReduce)是一项能够利用开源工具如Apache Hadoop和Apache Spark进行大数据分析的服务。
可以按下列方式使用。
-
- 大規模データ変換:ビッグデータに対するデータ抽出や変換・読み込みといったワークロードを分散処理基盤を活用して効率的に行える。
- リアルタイムストリーミング:Apache FlinkとApache Spark Streamingを組み合わせることで、Kinesisなどといったデータソースからストリーミングされるデータをリアルタイムに分析することができる。
总结
我学到了如何使用哪些工具对数据源进行ETL并将数据存储到Snowflake中。