概要总结了并行分布式处理基础设施[hadoop][spark][kafka]

我把在这里看到的东西总结起来了。

并行分散处理是一种将数据分散、存储和并行处理于多台服务器的方法,以实现在合理时间内处理大量数据的目的。

如果不使用并行分散处理基础设施,而是尝试在单个服务器上处理数据,会有什么结果?

    • データを抱えきれない

 

    データを現実的な時間で処理できない

在开源领域中,诞生了一个大规模分布式处理框架hadoop,它是基于GFS和MapReduce的开源实现。

Hadoop是什么?

    • 並列処理分散基盤フレームワーク

 

    複数のサーバを使い、全体で大きな課題を解決させる。

Hadoop的作用

    • 大規模データの保存と処理を行う

 

    並列分散処理フレームワーク

可以以实际成本实现大规模分布式处理的事项。

为了解决Hadoop对于频繁重复和复杂处理的劣势,Apache Spark应运而生。

什么是Spark?

    • 並列処理分散基盤フレームワーク

 

    複数のサーバを使い、全体で大きな課題を解決させる。

[Spark的角色] 当中最需要的部分就是:

    • メモリCPUディスクなどのリソースを効率的に利用

 

    SQLによる技術、機械学習、ストリーム処理などの分散処理で活躍

实现的功能:
– 可以高速处理复杂的操作
– 配备丰富的库和API,可以轻松实现复杂操作

但是,为了处理流式数据而spark和fluentd等无法接收流动数据的情况,Kafka应运而生以解决这个问题。

「卡夫卡是什么?」

    • スケーラブルで高速な分散メッセージングシステム

 

    (awsではaws kinesis)

【卡夫卡的作用】

    • サーバ複数台で並列に処理

 

    ディスクへの記録などデータを失いにくい仕組みを備える

– 可以快速接收逐一发送的数据

广告
将在 10 秒后关闭
bannerAds