介绍StreamSets数据收集器

1 年 ago

宇, 华

1 minute

我是一名居住在美国的Java女工。我想介绍一下来自旧金山的初创公司StreamSets（或者说我工作的这家公司哈哈），他们正在开发一款名为Data Collector的产品。

Data Collector 是什么？

根据公司网站所述

StreamSets数据采集器是一个轻量级但功能强大的引擎，可以实时传输数据。使用数据采集器来路由和处理数据流中的数据。

我们提供一款轻量且强大的数据流引擎，可以通过简单的图形用户界面轻松实现数据的移动和转换。由于这是一个开源产品，所以源代码已经公开在github.com/streamsets上。

例如，可以在进行字段验证的同时将本地文件移动到Hadoop FS，将Apache Web服务器的日志移动到ElasticSearch，并在过程中检测到警报。

目前数据输入的来源

RabbitMQ

数据输入的目的地是

Error/Trash

我认为只要安装并查看GUI界面，你就应该大概明白了，所以现在就安装并启动它吧。

– Mac OS下操作环境
– 已安装Java 1.8版本

从下载站点下载tarball. 在一个适当的目录中.

$ tar xvzf streamsets-datacollector-all-1.2.2.0.tgz
$ streamsets-datacollector-1.2.2.0/bin/streamsets dc

当您通过浏览器访问http://localhost:18630，将会显示登录页面！

用admin作为用户名和密码登录。
点击“创建新管道”按钮。随意输入管道名称。

在这个校园的上方放置输入源和输出目标的图标，以创建数据流水线！

暂时就到这里吧。下次，我想要亲自尝试制作教程中提到的管道。