Dans ce tutoriel, nous allons vous montrer comment installer Apache Spark sur Debian 11. Pour ceux d’entre vous qui ne le savaient pas, Apache Spark est un framework gratuit, open source et à usage général pour l’informatique en cluster. Il est spécialement conçu pour la vitesse et est utilisé dans l’apprentissage automatique pour diffuser le traitement de requêtes SQL complexes. Il prend en charge plusieurs API pour le streaming, le traitement graphique, notamment Java, Python, Scala et R. Spark est principalement installé dans les clusters Hadoop, mais vous pouvez également installer et configurer Spark en mode autonome.
Cet article suppose que vous avez au moins des connaissances de base sur Linux, que vous savez utiliser le shell et, plus important encore, que vous hébergez votre site sur votre propre VPS. L’installation est assez simple et suppose que vous utilisez le compte root, sinon vous devrez peut-être ajouter ‘sudo
‘ aux commandes pour obtenir les privilèges root. Je vais vous montrer l’installation étape par étape de Apache Spark sur une Debian 11 (Bullseye).
Installer Apache Spark sur Debian 11 Bullseye
Étape 1. Avant d’installer un logiciel, il est important de vous assurer que votre système est à jour en exécutant ce qui suit apt
commandes dans le terminal :
sudo mise à jour appropriée
sudo mise à niveau appropriée
Étape 2. Installation de Java.
Exécutez la commande suivante ci-dessous pour installer Java et d’autres dépendances :
sudo apt installer default-jdk scala git
Vérifiez l’installation de Java à l’aide de la commande :
java –version
Étape 3. Installation Apache Spark sur Debian 11.
Maintenant, nous téléchargeons la dernière version de Apache Spark à partir de la page officielle en utilisant wget
commander:
wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
Ensuite, extrayez le fichier téléchargé :
tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz mv spark-3.1.2-bin-hadoop3.2/ /opt/spark
Après cela, modifiez le ~/.bashrc
et ajoutez la variable de chemin Spark :
nano ~/.bashrc
Ajoutez la ligne suivante :
export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Save et close le fichier, puis activez la variable d’environnement Spark à l’aide de la commande suivante ci-dessous :
source ~/.bashrc
Étape 3. Commencer Apache Serveur maître Spark.
À ce point, Apache l’étincelle est installée. Commençons maintenant son serveur maître autonome en exécutant son script :
start-master.sh
Par défaut, Apache Spark écoute sur le port 8080. Vous pouvez le vérifier avec la commande suivante :
ss -tunelp | grep 8080
Étape 4. Accéder au Apache Interface Web Spark.
Une fois configuré avec succès, accédez maintenant au Apache Interface Web Spark utilisant l’URL https://your-server-ip-address:8080
. Vous devriez voir le Apache Service maître et esclave Spark sur l’écran suivant :
Dans cette configuration autonome à serveur unique, nous allons démarrer un serveur esclave avec le serveur maître. le start-slave.sh
la commande est utilisée pour démarrer le processus Spark Worker :
start-slave.sh spark://ubuntu1:7077
Maintenant qu’un worker est opérationnel, si vous rechargez l’interface utilisateur Web de Spark Master, vous devriez le voir dans la liste :
Une fois la configuration terminée, démarrez le serveur maître et esclave, testez si le shell Spark fonctionne :
coquille d’étincelle
Vous obtiendrez l’interface suivante :
Session Spark disponible en tant que « étincelle ». Bienvenue dans ____ __ / __/__ ___ _____/ /__ _ / _ / _ `/ __/ ‘_/ /___/ .__/_,_/_/ /_/_ version 3.1. 2 /_/ Utilisation de Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12) Saisissez les expressions pour les évaluer. Tapez :help pour plus d’informations. échelle>
Toutes nos félicitations! Vous avez installé avec succès Apache Étincelle. Merci d’avoir utilisé ce tutoriel pour installer la dernière version de Apache Spark sur Debian 11 Bullseye. Pour une aide supplémentaire ou des informations utiles, nous vous recommandons de vérifier l’officiel Apache Site Web Spark.