尝试构建全套Hortonworks大数据处理平台
为了完成Hortonworks提供的教程,我们将搭建一个包含Hortonworks Data Platform(HDP)和Hortonworks DataFlow(HDF)的大数据分析基础设施测试环境。由于所有服务都将安装在一个实例上,所以不适用于性能测试,但是如果您想从安装开始尝试,可以参考此文。
在Azure、Docker、VMware、Virtual Box上,有一个预先设置好的环境叫做Sandbox,但是这次我们将从头开始在原始虚拟实例上进行构建。
由于IBM和Hortonworks的合作也宣布了,所以我们想在Bluemix基础设施上创建。然而,我认为在任何云端、本地服务器、虚拟机上都可以进行类似的构建。
IBM与Hortonworks的合作
-
- Hortonworksとの協業にみる、IBMの製品戦略の大きな変化
-
- 日本IBMとホートンワークス、データ分析プラットフォーム製品を両社で再販
- IBM & Hortonworks、Facebook & Microsoft – 加速するAI業界再編の動き
已经转化为日语的教程。
-
- Hadoop Tutorial – Getting Started with HDP
-
- HDFハンズオン: NiFi, Kafka, Stormを組み合わせて利用する
- NiFi, SAM, Schema Registry, Supersetでリアルタイムイベントプロセッシング
在Bluemix上下订单实例
从Bluemix基础设施门户中选择以下规格,然后点击页面底部的[添加到订单]。
-
- Data Center: TOK02
-
- Flavor: Memory 4 X 2.0 GHz Cores x 32GB x 100GB (SAN)
- OS: CentOS 7.x Minimal Install (64 bit)
在本地电脑上完成FQDN的注册。
这次为了每次都不用输入IP地址太麻烦,我们在本地电脑上进行了注册。
sudo sh -c "echo '<作成されたインスタンスのIPアドレス> <FQDN>' >> /private/etc/hosts"
(例: 161.111.11.11)
(例: hdp1.handson.jp)
安装Ambari Server
- Terminal / SSH Clientから、作成されたインスタンスにSSH接続 (例: ssh root@161.111.11.11)
[root@hdp1 ~]# passwd
Changing password for user root.
New password: <new password>
Retype new password: <new password>
passwd: all authentication tokens updated successfully.
[root@hdp1 ~]# setenforce 0
[root@hdp1 ~]# wget -nv http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.5.2.0/ambari.repo -O /etc/yum.repos.d/ambari.repo
[root@hdp1 ~]# yum -y install java-1.8.0-openjdk java-1.8.0-openjdk-devel
[root@hdp1 ~]# yum -y install ambari-server
[root@hdp1 ~]# ambari-server setup -s --java-home=/usr/lib/jvm/jre/
[root@hdp1 ~]# ambari-server start
安装Ambari Agent
[root@hdp1 ~]# yum -y install ambari-agent
[root@hdp1 ~]# cat /etc/ambari-agent/conf/ambari-agent.ini |sed 's/localhost/hdp1.handson.jp/g' > /etc/ambari-agent/conf/ambari-agent.ini.new
(hdp<参加者番号> 例: hdp1, hdp2, hdp3..)
[root@hdp1 ~]# mv -f /etc/ambari-agent/conf/ambari-agent.ini.new /etc/ambari-agent/conf/ambari-agent.ini
[root@hdp1 ~]# ambari-agent start
[root@hdp1 ~]# ln -s /usr/bin/jps /usr/lib/jvm/jre//bin/jps
[root@hdp1 ~]# ln -s /usr/bin/jar /usr/lib/jvm/jre/bin/jar
[root@hdp1 ~]# yum -y install ntp
[root@hdp1 ~]# systemctl enable ntpd
[root@hdp1 ~]# service ntpd start
安装HDF管理包
[root@hdp1 ~]# ambari-server stop
[root@hdp1 ~]# wget http://public-repo-1.hortonworks.com/HDF/centos7/3.x/updates/3.0.0.0/tars/hdf_ambari_mp/hdf-ambari-mpack-3.0.0.0-453.tar.gz
[root@hdp1 ~]# mv hdf-ambari-mpack-3.0.0.0-453.tar.gz /tmp
[root@hdp1 ~]# cd /tmp
[root@hdp1 ~]# ambari-server install-mpack --mpack=/tmp/hdf-ambari-mpack-3.0.0.0-453.tar.gz --verbose
[root@hdp1 ~]# ambari-server start
[root@hdp1 ~]#
在Amabari UI中的设置 (HDP)。
如果NiFi的进程正常启动但无法连接到Web,应如何处理?
如果有两个NIC插入,并且NiFi进程可能引用了内部IP地址。在这种情况下,明确地在nifi.web.http.host中指定外部IP地址,并通过Ambari重新启动NiFi服务。
[root@hdp1 ~]# netstat -antu | grep LISTEN
tcp6 0 0 :::9995 :::* LISTEN
tcp6 0 0 127.0.0.1:9995 :::* LISTEN
对 Tez 进行调整设置
在Ambari仪表板中,通过Tez和Config,将tez.session.am.dag.submit.timeout.secs从600更改为60。
添加风暴 UI
如果使用Storm,请添加Storm UI。
在管理员身份下,使其能够在HDFS上创建目录和文件。
Hadoop 教程 – 使用 HDP 入门:
在Hadoop教程中,有一个上传数据的部分,让我们为了使用admin账户进行操作而进行设置。
[root@hdp1 ~]# sudo su - hdfs
Last login: Sun Sep 17 21:20:14 CDT 2017
[hdfs@hdp1 ~]$ hdfs dfs -mkdir /user/admin
[hdfs@hdp1 ~]$ hdfs dfs -chown admin:hadoop /user/admin
那么,让我们开始Hortonworks教程之旅吧。
提供额外的信息。
重启时的处理方式
如果SecondaryNameNode无法启动的情况下
当再启动时,可能会输出以下类型的日志,并且可能导致SeondayNameNode启动失败。其中一个可能的原因是Ambari Agent未能成功启动。请尝试先执行ambari-agent restart,然后再执行ambari-server restart以进行测试。
FATAL namenode.SecondaryNameNode (SecondaryNameNode.java:main(683)) - Failed to start secondary namenode
java.net.BindException: Port in use: hdp.handson.jp:50090
自动启动服务的设置
SAM、Schema Registry、Druid、Superset的安装和配置
如果需要的话,在安装HDF服务到现有HDP集群之前,请确保已经安装了SAM、Schema Registry、Druid和Superset。我计划在有时间的时候将它们也添加到这里,但在那之前,请参考“在现有HDP集群上安装HDF服务”。
使用IBM数据科学体验进行分析
我希望在有时间的时候尝试一下。