Hadoop和快乐的伙伴们
这是一份属于我自己的备忘录。
大数据分布式处理
-
- Hadoop
-
- Spark
インメモリー処理を主体
Storm
リアルタイムHadoop
Hadoop大数据处理框架
-
- Hadoop による分散データ処理: 第 1 回 導入編
-
- Hadoop による分散データ処理: 第 2 回 拡張編
- Hadoop による分散データ処理: 第 3 回 アプリケーション開発
火花
-
- Apache Sparkは、Scalaで(Hadoopのような)分散処理を行う為のライブラリー(OSS)
-
- HadoopのMapReduce部分に置き換わることを目指して開発された、Scalaで分散処理を行うフレームワークで、いわば高速化されたMapReduceといえる
-
- Spark を活用する:ビッグデータアプリケーション用の高速インメモリコンピューティング
-
- 分散処理に入門してみた(Hadoop+Spark)
-
- Apache Spark
- Apache Spark の紹介(前半:Sparkのキホン)
暴风雨
-
- 「ストリーム処理」、メッセージ処理、データベースのアップデートをリアルタイムで行うために使うことができる
-
- コンピュータクラスタ上で複雑なリアルタイム計算を書いたり、スケールするのが簡単になる
-
- Hadoopがバッチ処理のためにやっていることをリアルタイム処理で行う
-
- ツイッターStorm:オープンソースのリアルタイムHadoop
- Twitter Storm でビッグ・データをリアルタイムに処理する
分布式文件系统
-
- HDFS
-
- WebHDFS
HTTP REST APIでHDFSにアクセスできる機能
HDFS(Hadoop分布式文件系统)
-
- Hadoop分散ファイルシステム (HDFS Hadoop Distributed File System)
-
- HDFS 【 Hadoop Distributed File System 】
- HDFSおよびMapReduce
WebHDFS可以以本地方式进行连接。
-
- Hoop(httpfs)とwebhdfsはほぼ同じ
-
- Java実装のHDFSClientがやっていた通信をHTTP REST APIで置き換え可能にする、というものがWebHDFS
-
- Hoop(httpfs)とwebhdfsの違い
- WebHDFSの性能評価
Hadoop中的算法。(Hadoop de fǎ.)
-
- MapReduce
-
- YARN
- Tez
MapReduce 分布式计算模型
-
- 並列処理フレームワーク MapReduce
- MapReduce
毛线
-
- YARN (Yet Another Resource Negotiator)
-
- リソース管理と処理コンポーネントを切り離す
-
- MapReduce エンジンに比べ、YARN にはスケーラビリティー、効率性、柔軟性という点で明らかに勝っている
-
- YARN の紹介
- YARNの登場によりHadoopは複数の並列分散処理エンジンを併用できる環境へ。Hadoop Conference Japan 2014
可以这样表达:Tez
-
- TezそのものはYARNにおける並列処理エンジンについてMapReduceの代替となることを意識しているようである
-
- Tezの特性について
Apache Tez
リピさんとオザさんのTezとSparkの会話
泳道
-
- TezのApplicationMasterが出力したログをもとに、”どのコンテナ”で”どのような処理”が”いつ”実行していたかを可視化する仕組み
- とりあえずTezのswimlanesを動かしてみた
散布式儲存系統
HBase → HBase
-
- 大量データに対応した分散ストレージシステム
-
- Cassandra、Redis、MongoDBなどと同じで、NoSQLである
-
- HBaseを触ってみよう
- HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた
SQL 查询引擎
-
- Hive
-
- Pig
- Presto
蜂巢
-
- Hadoopの上に構築されたデータウェアハウス 構築環境であり、データの集約・問い合わせ・分析を行う
-
- HiveはHiveQLというSQL風の言語でHadoop上のデータを操作できる
-
- Hadoop+Hive検証環境を構築してみる (1/3)
- SQL と Hadoop の間での双方向のデータ転送: 第 2 回 HBase と Hive を利用する
猪
-
- PigとHiveは、共にSQLライクな記法でMapReduceを書けるDSLである
-
- 性能面で、「JavaMapReduce>Hive>Pig」
-
- Hadoop Pig の使いどころ
- Apache Pig で大規模データセットを分散処理する
展现
-
- PrestoはHiveやImpalaと同じ「SQL Query Engine」
-
- 特に数百GBを超える大規模データに対してもインタラクティブなレスポンスを(コンマ0秒以下,遅くても2,3秒)返すという点では Hive と異なり,Impala に近いものがある
-
- 『Prestoとは何か,Prestoで何ができるか』
- Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると
普雷斯托格雷斯
-
- BIツールからPrestoにつなぐ際のゲートウェイ
- CognosからPrestogres経由でPrestoにつないだ話
其他
Hcatalog (汇总目录)
-
- 大規模データについてのメタデータ、文字通りカタログの中央集中管理機能と、そのデータ入出力アダプタを提供する
-
- HCatalogインストール
- HCatalog
色相
-
- Hadoopを操作できるオープンソースのWeb UI
- HueでHadoopをWeb UIから使う
Zipkin (中文名: 齐皮金)
-
- twitter/zipkin
- LINEのマイクロサービス環境における分散トレーシング