Spark 安裝的方法有很多種,在此提供在 mac 上透過 python 的 pip 來安裝單機版的 Spark
此教學安裝的版本: Spark 2.3.1, python 3.6.5 (64 bits), macOS 10.13.5, Java 8.171
下列安裝說明假設你已從 Python 官網下載並裝好 Python 3+ (64 bits),並不需要從 Spark 官網另外下載 Spark 檔案

  1. 先到 Oracle 官網下載安裝 Java
  2. 將新安裝的 Java 加入 PATH 參數:
    a. 用文字編輯器 (如: TextEdit) 打開 .bash_profile 檔,此檔一般隱藏於使用者根目錄 ~ 下方
    b. 在檔案最下方加入:

    # Java 8
    export JAVA_HOME="/Library/Internet Plug-Ins/JavaAppletPlugin.plugin/Contents/Home"
    export PATH=${JAVA_HOME}/bin:$PATH
    

    c. 在 Terminal 中輸入

    java -version

    ,若無錯誤應該會顯示:

    java version "1.8.0_171"
    Java(TM) SE Runtime Environment (build 1.8.0_171-b11)
    Java HotSpot(TM) 64-Bit Server VM (build 25.171-b11, mixed mode)
    
  3. 在 Terminal 輸入:
    pip install pyspark

    來透過 pip 安裝 pyspark (或是用 pip3,如果你的 pip 不是 python 3 的話),Spark 檔案大小約 200 MB

  4. 安裝完後,在 .bash_profile 最底部再加入
    # pyspark 2.3.1 with Python 3.6
    export SPARK_HOME="/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pyspark"
    export PYSPARK_PYTHON=python3
    
  5. 要執行 pyspark 可以在 Terminal 輸入
    pyspark

    來執行。如果沒錯誤就會顯示類似:

    Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 05:52:31) 
    [GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.57)] on darwin
    Type "help", "copyright", "credits" or "license" for more information.
    2018-07-05 00:37:21 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    Setting default log level to "WARN".
    To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
    Welcome to
          ____              __
         / __/__  ___ _____/ /__
        _\ \/ _ \/ _ `/ __/  '_/
       /__ / .__/\_,_/_/ /_/\_\   version 2.3.1
          /_/
    
    Using Python version 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018 05:52:31)
    SparkSession available as 'spark'.
    >>>
    
  6. 可以嘗試輸入
    print(sc.version)

    看看 Spark 是否有正確啟動,有看到版本號就是正確啟動了

Pyspark in Jupyter

假如你想用 Jupyter Notebook 來啟動 Pyspark,可以加入下列參數到 .bash_profile

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

這樣從 Terminal 啟動 pyspark 時就會自動開啟 Jupyter Notebook。

Reference:

Running pyspark after pip install pyspark
Get Started with PySpark and Jupyter Notebook in 3 Minutes

廣告