介绍StreamSets数据收集器
我是一名居住在美国的Java女工。我想介绍一下来自旧金山的初创公司StreamSets(或者说我工作的这家公司哈哈),他们正在开发一款名为Data Collector的产品。
Data Collector 是什么?
根据公司网站所述
StreamSets数据采集器是一个轻量级但功能强大的引擎,可以实时传输数据。使用数据采集器来路由和处理数据流中的数据。
我们提供一款轻量且强大的数据流引擎,可以通过简单的图形用户界面轻松实现数据的移动和转换。由于这是一个开源产品,所以源代码已经公开在github.com/streamsets上。
例如,可以在进行字段验证的同时将本地文件移动到Hadoop FS,将Apache Web服务器的日志移动到ElasticSearch,并在过程中检测到警报。
目前数据输入的来源
-
- ローカルファイル
-
- File Tail
-
- Hadoop FS
-
- JDBC
-
- HTTP Client
-
- Amazon S3
-
- Kafka
-
- MongoDB
-
- Omniture
-
- MapR
-
- RPC
-
- UDP
- RabbitMQ
数据输入的目的地是
-
- Cassandra
-
- Elasticsearch
-
- Flume
-
- Hadoop FS
-
- HBase
-
- Hive Streaming
-
- InfluxDB
-
- JDBC
-
- Kafka
-
- Kinesis
-
- MapR
-
- RabbitMQ
-
- SDC RPC
-
- Solr
- Error/Trash
我认为只要安装并查看GUI界面,你就应该大概明白了,所以现在就安装并启动它吧。
安装和启动
– Mac OS下操作环境
– 已安装Java 1.8版本
从下载站点下载tarball. 在一个适当的目录中.
$ tar xvzf streamsets-datacollector-all-1.2.2.0.tgz
$ streamsets-datacollector-1.2.2.0/bin/streamsets dc
当您通过浏览器访问http://localhost:18630,将会显示登录页面!
用admin作为用户名和密码登录。
点击“创建新管道”按钮。随意输入管道名称。
在这个校园的上方放置输入源和输出目标的图标,以创建数据流水线!
暂时就到这里吧。下次,我想要亲自尝试制作教程中提到的管道。