Apache Spark 是一個用於大規模分析數據和機器學習處理的開源計算框架。它支持各種首選語言,如 scala、R、Python 和 Java。它為 Spark Streaming、GraphX、SQL 和 MLLib 提供了高級工具來進行繪圖。
在本文中,您將學習如何在 ubuntu 上安裝和配置 Apache Spark。我使用 Ubuntu 20.04LTS 發布系統來說明本文中的過程。 在安裝 Apache Spark 之前,必須在系統上安裝 Scala 和 Scala。
安裝 Scala
如果您沒有安裝 Java 和 Scala,您可以按照以下步驟進行操作。
對於 Java,我們將安裝 OpenJDK 8,但您也可以安裝任何您喜歡的版本。
$ sudo apt update
$ sudo apt install openjdk-8-jdk
如果需要驗證 Java 安裝,可以運行以下命令:
$ java -version
談到 Scala,Scala 是一種面向對象的函數式編程語言,它將其組合成一個簡潔的語言。 Scala 兼容 javascript 運行時和 JVM,並提供對大型庫生態系統的輕鬆訪問,幫助您構建高性能係統。運行以下 apt 命令來安裝 scala。
$ sudo apt update
$ sudo apt install scala
然後檢查版本並確認安裝。
$ scala -version
安裝 Apache Spark
沒有用於安裝 apache-spark 的官方 apt 存儲庫,但您可以從官方站點預編譯二進製文件。使用以下 wget 命令和鏈接下載二進製文件。
$ wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
然後使用以下 tar 命令提取下載的二進製文件。
$ tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz
最後,將解壓出來的spark文件移動到/opt目錄下。
$ sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark
設置環境變量
.profile 文件中的 sparkpath 變量,必須設置該命令才能在沒有完整路徑的情況下工作,可以使用 echo 命令或使用您喜歡的文本編輯器手動完成。一種更簡單的方法是運行以下 echo 命令。
$ echo " SPARK_HOME=/opt/spark" >> ~/.profile
$ echo " PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo " PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
如您所見,在 >> 操作中使用 echo 將路徑變量添加到 .profile 文件的末尾。
然後運行以下命令以應用新的環境變量更改。
$ source ~/.profile
部署 Apache Spark
您現在已經完成了所有允許您使用以下命令運行主服務和工作服務的設置:
$ start-master.sh
如您所見,Spark Master Service 正在端口 8080 上運行。如果您在端口 8080 上引用本地主機,則這是 spark 的默認端口。 當您瀏覽 URL 時,您可能會看到以下類型的用戶界面:您可能無法僅通過啟動主服務來找到正在運行的工作處理器。啟動工作器服務時,會列出新節點,如下例所示。
當您在瀏覽器中打開母版頁時,您將看到 spark master spark: // HOST: PORTURL,用於通過此主機連接到 worker 服務。對於當前主機,spark master的URL是spark: //Linuxways.localdomain: 7077,所以需要運行如下命令來啟動worker進程:
$ start-workers.sh <spark-master-url>
通過運行以下命令運行工作器服務:
$ start-workers.sh spark://Linuxways.localdomain:7077
您還可以通過運行以下命令來使用 spark-shell:
$ spark-shell
結論是
我們希望您從本文中了解瞭如何在 ubuntu 上安裝和配置 apache spark。在本文中,我試圖使該過程盡可能易於理解。