尝试构建全套Hortonworks大数据处理平台

为了完成Hortonworks提供的教程,我们将搭建一个包含Hortonworks Data Platform(HDP)和Hortonworks DataFlow(HDF)的大数据分析基础设施测试环境。由于所有服务都将安装在一个实例上,所以不适用于性能测试,但是如果您想从安装开始尝试,可以参考此文。
在Azure、Docker、VMware、Virtual Box上,有一个预先设置好的环境叫做Sandbox,但是这次我们将从头开始在原始虚拟实例上进行构建。
由于IBM和Hortonworks的合作也宣布了,所以我们想在Bluemix基础设施上创建。然而,我认为在任何云端、本地服务器、虚拟机上都可以进行类似的构建。

IBM与Hortonworks的合作

    • Hortonworksとの協業にみる、IBMの製品戦略の大きな変化

 

    • 日本IBMとホートンワークス、データ分析プラットフォーム製品を両社で再販

 

    IBM & Hortonworks、Facebook & Microsoft – 加速するAI業界再編の動き

已经转化为日语的教程。

    • Hadoop Tutorial – Getting Started with HDP

 

    • HDFハンズオン: NiFi, Kafka, Stormを組み合わせて利用する

 

    NiFi, SAM, Schema Registry, Supersetでリアルタイムイベントプロセッシング

在Bluemix上下订单实例

从Bluemix基础设施门户中选择以下规格,然后点击页面底部的[添加到订单]。

    • Data Center: TOK02

 

    • Flavor: Memory 4 X 2.0 GHz Cores x 32GB x 100GB (SAN)

 

    OS: CentOS 7.x Minimal Install (64 bit)

在本地电脑上完成FQDN的注册。

这次为了每次都不用输入IP地址太麻烦,我们在本地电脑上进行了注册。

sudo sh -c "echo '<作成されたインスタンスのIPアドレス> <FQDN>' >> /private/etc/hosts"
(例: 161.111.11.11)
(例: hdp1.handson.jp)

安装Ambari Server

    Terminal / SSH Clientから、作成されたインスタンスにSSH接続 (例: ssh root@161.111.11.11)
[root@hdp1 ~]# passwd
Changing password for user root.
New password: <new password>
Retype new password: <new password>
passwd: all authentication tokens updated successfully.
[root@hdp1 ~]# setenforce 0
[root@hdp1 ~]# wget -nv http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.5.2.0/ambari.repo -O /etc/yum.repos.d/ambari.repo
[root@hdp1 ~]# yum -y install java-1.8.0-openjdk java-1.8.0-openjdk-devel
[root@hdp1 ~]# yum -y install ambari-server
[root@hdp1 ~]# ambari-server setup -s --java-home=/usr/lib/jvm/jre/
[root@hdp1 ~]# ambari-server start

安装Ambari Agent

[root@hdp1 ~]# yum -y install ambari-agent
[root@hdp1 ~]# cat /etc/ambari-agent/conf/ambari-agent.ini |sed 's/localhost/hdp1.handson.jp/g' > /etc/ambari-agent/conf/ambari-agent.ini.new 
(hdp<参加者番号> 例: hdp1, hdp2, hdp3..)

[root@hdp1 ~]# mv -f /etc/ambari-agent/conf/ambari-agent.ini.new /etc/ambari-agent/conf/ambari-agent.ini
[root@hdp1 ~]# ambari-agent start
[root@hdp1 ~]# ln -s /usr/bin/jps /usr/lib/jvm/jre//bin/jps
[root@hdp1 ~]# ln -s /usr/bin/jar /usr/lib/jvm/jre/bin/jar
[root@hdp1 ~]# yum -y install ntp
[root@hdp1 ~]# systemctl enable ntpd
[root@hdp1 ~]# service ntpd start

安装HDF管理包

[root@hdp1 ~]# ambari-server stop
[root@hdp1 ~]# wget http://public-repo-1.hortonworks.com/HDF/centos7/3.x/updates/3.0.0.0/tars/hdf_ambari_mp/hdf-ambari-mpack-3.0.0.0-453.tar.gz
[root@hdp1 ~]# mv hdf-ambari-mpack-3.0.0.0-453.tar.gz /tmp
[root@hdp1 ~]# cd /tmp
[root@hdp1 ~]# ambari-server install-mpack --mpack=/tmp/hdf-ambari-mpack-3.0.0.0-453.tar.gz --verbose
[root@hdp1 ~]# ambari-server start
[root@hdp1 ~]# 

在Amabari UI中的设置 (HDP)。

2017-09-18-10.25.19.jpg
チュートリアル選択するサービスHDP系チュートリアルHDFS, YARN + MapReduce, Tez, Hive, Pig, ZooKeeper, Ambari Metrics, SmartSence, Spark2, Zeppelin Notebook, SliderHDF系チュートリアルHDFS, YARN + MapReduce, ZooKeeper, Ambari Metrics, SmartSence, NiFi, Storm, Kafka, Spark2, Zeppelin Notebook
 2017-09-18 15.02.55.jpg

如果NiFi的进程正常启动但无法连接到Web,应如何处理?

如果有两个NIC插入,并且NiFi进程可能引用了内部IP地址。在这种情况下,明确地在nifi.web.http.host中指定外部IP地址,并通过Ambari重新启动NiFi服务。

[root@hdp1 ~]# netstat -antu | grep LISTEN
tcp6       0      0 :::9995                 :::*                    LISTEN     
tcp6       0      0 127.0.0.1:9995          :::*                    LISTEN 
 2017-09-19 9.05.43.jpg

对 Tez 进行调整设置

在Ambari仪表板中,通过Tez和Config,将tez.session.am.dag.submit.timeout.secs从600更改为60。

添加风暴 UI

如果使用Storm,请添加Storm UI。

 2017-09-18 23.57.39.jpg

在管理员身份下,使其能够在HDFS上创建目录和文件。

Hadoop 教程 – 使用 HDP 入门:
在Hadoop教程中,有一个上传数据的部分,让我们为了使用admin账户进行操作而进行设置。

[root@hdp1 ~]# sudo su - hdfs
Last login: Sun Sep 17 21:20:14 CDT 2017
[hdfs@hdp1 ~]$ hdfs dfs -mkdir /user/admin
[hdfs@hdp1 ~]$ hdfs dfs -chown admin:hadoop /user/admin

那么,让我们开始Hortonworks教程之旅吧。


提供额外的信息。

重启时的处理方式

ss 2017-09-20 8.35.15.png

如果SecondaryNameNode无法启动的情况下

当再启动时,可能会输出以下类型的日志,并且可能导致SeondayNameNode启动失败。其中一个可能的原因是Ambari Agent未能成功启动。请尝试先执行ambari-agent restart,然后再执行ambari-server restart以进行测试。

FATAL namenode.SecondaryNameNode (SecondaryNameNode.java:main(683)) - Failed to start secondary namenode
java.net.BindException: Port in use: hdp.handson.jp:50090

自动启动服务的设置

 2017-09-19 10.53.44.jpg

SAM、Schema Registry、Druid、Superset的安装和配置

如果需要的话,在安装HDF服务到现有HDP集群之前,请确保已经安装了SAM、Schema Registry、Druid和Superset。我计划在有时间的时候将它们也添加到这里,但在那之前,请参考“在现有HDP集群上安装HDF服务”。

使用IBM数据科学体验进行分析

我希望在有时间的时候尝试一下。

广告
将在 10 秒后关闭
bannerAds