概要总结了并行分布式处理基础设施[hadoop][spark][kafka]
我把在这里看到的东西总结起来了。
并行分散处理是一种将数据分散、存储和并行处理于多台服务器的方法,以实现在合理时间内处理大量数据的目的。
如果不使用并行分散处理基础设施,而是尝试在单个服务器上处理数据,会有什么结果?
-
- データを抱えきれない
- データを現実的な時間で処理できない
在开源领域中,诞生了一个大规模分布式处理框架hadoop,它是基于GFS和MapReduce的开源实现。
Hadoop是什么?
-
- 並列処理分散基盤フレームワーク
- 複数のサーバを使い、全体で大きな課題を解決させる。
Hadoop的作用
-
- 大規模データの保存と処理を行う
- 並列分散処理フレームワーク
可以以实际成本实现大规模分布式处理的事项。
为了解决Hadoop对于频繁重复和复杂处理的劣势,Apache Spark应运而生。
什么是Spark?
-
- 並列処理分散基盤フレームワーク
- 複数のサーバを使い、全体で大きな課題を解決させる。
[Spark的角色] 当中最需要的部分就是:
-
- メモリCPUディスクなどのリソースを効率的に利用
- SQLによる技術、機械学習、ストリーム処理などの分散処理で活躍
实现的功能:
– 可以高速处理复杂的操作
– 配备丰富的库和API,可以轻松实现复杂操作
但是,为了处理流式数据而spark和fluentd等无法接收流动数据的情况,Kafka应运而生以解决这个问题。
「卡夫卡是什么?」
-
- スケーラブルで高速な分散メッセージングシステム
- (awsではaws kinesis)
【卡夫卡的作用】
-
- サーバ複数台で並列に処理
- ディスクへの記録などデータを失いにくい仕組みを備える
– 可以快速接收逐一发送的数据