安装Apache Spark(MacOSX)

在MacOSX上安装Apache Spark的方法

要使用Spark,必须安装JRE和Python。

如果您希望使用以下版本,只需点击下面的链接即可立即下载。

Spark发布: 2.3.1(2018年6月8日)
软件包类型:适用于Apache Hadoop 2.7及更高版本的预构建包。
spark-2.3.1-bin-hadoop2.7.tgz 可以改写成:spark-2.3.1二进制文件-hadoop2.7.tgz

以下是原生中文的重述:

http://ftp.yz.yamagata-u.ac.jp/pub/network/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz

如果您希望使用其他版本,请按照以下步骤进行操作。

Screen Shot 2018-09-01 at 21.36.12.png

下载后,进行解压和移动文件夹。

Screen Shot 2018-09-01 at 21.46.42.png

修改conf文件夹中log4j.properties文件的某一部分

log4j.rootCategory=INFO, consoleの行のINFOをWARNにする

# Set everything to be logged to the console
log4j.rootCategory=WARN, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
    confフォルダ内のlog4j.properties.templateの名前をlog4j.propertiesにする

请在终端中切换到从Terminal下载的文件夹。

启动bin文件夹中的pyspark(如果是scala的话,使用spark-shell)。

cd /ダウンロードした場所までのパス/spark
bin/pyspark

如果显示出如下画面,则表示已完成。

Python 3.6.5 |Anaconda, Inc.| (default, Apr 26 2018, 08:42:37) 
[GCC 4.2.1 Compatible Clang 4.0.1 (tags/RELEASE_401/final)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
18/09/01 22:35:43 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.3.1
      /_/

Using Python version 3.6.5 (default, Apr 26 2018 08:42:37)
SparkSession available as 'spark'.
>>> 
以上
广告
将在 10 秒后关闭
bannerAds