我研究了与Snowflake结合使用的AWS服务

1 年 ago

文, 翔

1 minute

这次的任务

我在观看了Snowflake的YouTube频道上关于结合AWS服务和Snowflake构建数据基础设施的视频后，对其中所提到的一些问题进行了调查。（我也引用了视频中的架构图。）

我在视频中看到介绍可以与Snowflake协同使用的AWS服务，所以我简单地进行了一下调查。

通过以下服务，可以将数据从数据源加载到S3或Snowflake。

具有以下功能。

ワークフロー：ETLジョブ、クローラ、データカタログ出力までの一連の処理を自動化できる。

尽管在AWS Lambda上基本上可以执行相同的操作，但由于它在15分钟后会超时，所以在进行大规模数据处理时，Glue更适合使用。然而，由于Lambda更多地与CloudWatch Events和S3等协作服务进行整合，因此通常情况下更多人选择Lambda。

可实现与Glue类似的功能，但面向SaaS的数据协同工具，如Salesforce和Slack，其数据协同来源受到限制。无需编写代码即可自动化数据流程。

可以使用以下工具来处理流媒体数据。

可以实时收集大量连续发送的数据流，并将其传送到下一个服务的服务。
通过将Lambda附加到Kinesis Streams，还可以将其传输到S3或DWH。

可以将不断发送的大量流数据传输到S3或DWH。

亚马逊托管的Apache Kafka流处理平台，用于收集、处理和存储流数据。该服务可以自动执行和管理Apache Kafka的运行。

Apache Kafka是一种用于解决诸如管理困难等缺点的服务。

亚马逊弹性MapReduce（Amazon Elastic MapReduce）是一项能够利用开源工具如Apache Hadoop和Apache Spark进行大数据分析的服务。

可以按下列方式使用。

リアルタイムストリーミング：Apache FlinkとApache Spark Streamingを組み合わせることで、Kinesisなどといったデータソースからストリーミングされるデータをリアルタイムに分析することができる。

我学到了如何使用哪些工具对数据源进行ETL并将数据存储到Snowflake中。