Hadoop和快乐的伙伴们

这是一份属于我自己的备忘录。

大数据分布式处理

    • Hadoop

 

    • Spark

インメモリー処理を主体

Storm

リアルタイムHadoop

Hadoop大数据处理框架

    • Hadoop による分散データ処理: 第 1 回 導入編

 

    • Hadoop による分散データ処理: 第 2 回 拡張編

 

    Hadoop による分散データ処理: 第 3 回 アプリケーション開発

火花

    • Apache Sparkは、Scalaで(Hadoopのような)分散処理を行う為のライブラリー(OSS)

 

    • HadoopのMapReduce部分に置き換わることを目指して開発された、Scalaで分散処理を行うフレームワークで、いわば高速化されたMapReduceといえる

 

    • Spark を活用する:ビッグデータアプリケーション用の高速インメモリコンピューティング

 

    • 分散処理に入門してみた(Hadoop+Spark)

 

    • Apache Spark

 

    Apache Spark の紹介(前半:Sparkのキホン)

暴风雨

    • 「ストリーム処理」、メッセージ処理、データベースのアップデートをリアルタイムで行うために使うことができる

 

    • コンピュータクラスタ上で複雑なリアルタイム計算を書いたり、スケールするのが簡単になる

 

    • Hadoopがバッチ処理のためにやっていることをリアルタイム処理で行う

 

    • ツイッターStorm:オープンソースのリアルタイムHadoop

 

    Twitter Storm でビッグ・データをリアルタイムに処理する

分布式文件系统

    • HDFS

 

    • WebHDFS

HTTP REST APIでHDFSにアクセスできる機能

HDFS(Hadoop分布式文件系统)

    • Hadoop分散ファイルシステム (HDFS Hadoop Distributed File System)

 

    • HDFS 【 Hadoop Distributed File System 】

 

    HDFSおよびMapReduce

WebHDFS可以以本地方式进行连接。

    • Hoop(httpfs)とwebhdfsはほぼ同じ

 

    • Java実装のHDFSClientがやっていた通信をHTTP REST APIで置き換え可能にする、というものがWebHDFS

 

    • Hoop(httpfs)とwebhdfsの違い

 

    WebHDFSの性能評価

Hadoop中的算法。(Hadoop de fǎ.)

    • MapReduce

 

    • YARN

 

    Tez

MapReduce 分布式计算模型

    • 並列処理フレームワーク MapReduce

 

    MapReduce

毛线

    • YARN (Yet Another Resource Negotiator)

 

    • リソース管理と処理コンポーネントを切り離す

 

    • MapReduce エンジンに比べ、YARN にはスケーラビリティー、効率性、柔軟性という点で明らかに勝っている

 

    • YARN の紹介

 

    YARNの登場によりHadoopは複数の並列分散処理エンジンを併用できる環境へ。Hadoop Conference Japan 2014

可以这样表达:Tez

    • TezそのものはYARNにおける並列処理エンジンについてMapReduceの代替となることを意識しているようである

 

    • Tezの特性について

Apache Tez
リピさんとオザさんのTezとSparkの会話

泳道

    • TezのApplicationMasterが出力したログをもとに、”どのコンテナ”で”どのような処理”が”いつ”実行していたかを可視化する仕組み

 

    とりあえずTezのswimlanesを動かしてみた

散布式儲存系統

HBase → HBase

    • 大量データに対応した分散ストレージシステム

 

    • Cassandra、Redis、MongoDBなどと同じで、NoSQLである

 

    • HBaseを触ってみよう

 

    HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた

SQL 查询引擎

    • Hive

 

    • Pig

 

    Presto

蜂巢

    • Hadoopの上に構築されたデータウェアハウス 構築環境であり、データの集約・問い合わせ・分析を行う

 

    • HiveはHiveQLというSQL風の言語でHadoop上のデータを操作できる

 

    • Hadoop+Hive検証環境を構築してみる (1/3)

 

    SQL と Hadoop の間での双方向のデータ転送: 第 2 回 HBase と Hive を利用する

    • PigとHiveは、共にSQLライクな記法でMapReduceを書けるDSLである

 

    • 性能面で、「JavaMapReduce>Hive>Pig」

 

    • Hadoop Pig の使いどころ

 

    Apache Pig で大規模データセットを分散処理する

展现

    • PrestoはHiveやImpalaと同じ「SQL Query Engine」

 

    • 特に数百GBを超える大規模データに対してもインタラクティブなレスポンスを(コンマ0秒以下,遅くても2,3秒)返すという点では Hive と異なり,Impala に近いものがある

 

    • 『Prestoとは何か,Prestoで何ができるか』

 

    Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると

普雷斯托格雷斯

    • BIツールからPrestoにつなぐ際のゲートウェイ

 

    CognosからPrestogres経由でPrestoにつないだ話

其他

Hcatalog (汇总目录)

    • 大規模データについてのメタデータ、文字通りカタログの中央集中管理機能と、そのデータ入出力アダプタを提供する

 

    • HCatalogインストール

 

    HCatalog

色相

    • Hadoopを操作できるオープンソースのWeb UI

 

    HueでHadoopをWeb UIから使う

Zipkin (中文名: 齐皮金)

    • twitter/zipkin

 

    LINEのマイクロサービス環境における分散トレーシング
广告
将在 10 秒后关闭
bannerAds