我研究了与Snowflake结合使用的AWS服务

这次的任务

我在观看了Snowflake的YouTube频道上关于结合AWS服务和Snowflake构建数据基础设施的视频后,对其中所提到的一些问题进行了调查。(我也引用了视频中的架构图。)

 

image.png

调查与Snowflake集成使用的AWS服务

我在视频中看到介绍可以与Snowflake协同使用的AWS服务,所以我简单地进行了一下调查。

数据管道系统

通过以下服务,可以将数据从数据源加载到S3或Snowflake。

胶水

具有以下功能。

    • ETLジョブ:データソースからデータを抽出した後、データレイクやDWHにデータを連携する機能。

 

    • データカタログ:ETLジョブのデータソースなどのデータの説明を記載しておける。

 

    • クローラ:データレイクを定期定期にチェックし、メタデータをデータカタログに反映する機能。

 

    ワークフロー:ETLジョブ、クローラ、データカタログ出力までの一連の処理を自動化できる。

尽管在AWS Lambda上基本上可以执行相同的操作,但由于它在15分钟后会超时,所以在进行大规模数据处理时,Glue更适合使用。然而,由于Lambda更多地与CloudWatch Events和S3等协作服务进行整合,因此通常情况下更多人选择Lambda。

 

应用流

可实现与Glue类似的功能,但面向SaaS的数据协同工具,如Salesforce和Slack,其数据协同来源受到限制。无需编写代码即可自动化数据流程。

2) 流媒体数据系统

可以使用以下工具来处理流媒体数据。

Kinesis数据流

可以实时收集大量连续发送的数据流,并将其传送到下一个服务的服务。
通过将Lambda附加到Kinesis Streams,还可以将其传输到S3或DWH。

数据火箭

可以将不断发送的大量流数据传输到S3或DWH。

莫斯科

亚马逊托管的Apache Kafka流处理平台,用于收集、处理和存储流数据。该服务可以自动执行和管理Apache Kafka的运行。

Apache Kafka是一种用于解决诸如管理困难等缺点的服务。

3) Spark处理系统

电子病历 zǐ lì)

亚马逊弹性MapReduce(Amazon Elastic MapReduce)是一项能够利用开源工具如Apache Hadoop和Apache Spark进行大数据分析的服务。

可以按下列方式使用。

    • 大規模データ変換:ビッグデータに対するデータ抽出や変換・読み込みといったワークロードを分散処理基盤を活用して効率的に行える。

 

    リアルタイムストリーミング:Apache FlinkとApache Spark Streamingを組み合わせることで、Kinesisなどといったデータソースからストリーミングされるデータをリアルタイムに分析することができる。

总结

我学到了如何使用哪些工具对数据源进行ETL并将数据存储到Snowflake中。