Comment installer Apache Spark sur Debian 11

Dans ce tutoriel, nous allons vous montrer comment installer Apache Spark sur Debian 11. Pour ceux d’entre vous qui ne le savaient pas, Apache Spark est un framework gratuit, open source et à usage général pour l’informatique en cluster. Il est spécialement conçu pour la vitesse et est utilisé dans l’apprentissage automatique pour diffuser le traitement de requêtes SQL complexes. Il prend en charge plusieurs API pour le streaming, le traitement graphique, notamment Java, Python, Scala et R. Spark est principalement installé dans les clusters Hadoop, mais vous pouvez également installer et configurer Spark en mode autonome.

Cet article suppose que vous avez au moins des connaissances de base sur Linux, que vous savez utiliser le shell et, plus important encore, que vous hébergez votre site sur votre propre VPS. L’installation est assez simple et suppose que vous utilisez le compte root, sinon vous devrez peut-être ajouter ‘sudo‘ aux commandes pour obtenir les privilèges root. Je vais vous montrer l’installation étape par étape de Apache Spark sur une Debian 11 (Bullseye).

Installer Apache Spark sur Debian 11 Bullseye

Étape 1. Avant d’installer un logiciel, il est important de vous assurer que votre système est à jour en exécutant ce qui suit apt commandes dans le terminal :

sudo mise à jour appropriée
sudo mise à niveau appropriée

Étape 2. Installation de Java.

Exécutez la commande suivante ci-dessous pour installer Java et d’autres dépendances :

sudo apt installer default-jdk scala git

Vérifiez l’installation de Java à l’aide de la commande :

java –version

Étape 3. Installation Apache Spark sur Debian 11.

Maintenant, nous téléchargeons la dernière version de Apache Spark à partir de la page officielle en utilisant wget commander:

wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Ensuite, extrayez le fichier téléchargé :

tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz mv spark-3.1.2-bin-hadoop3.2/ /opt/spark

Après cela, modifiez le ~/.bashrc et ajoutez la variable de chemin Spark :

nano ~/.bashrc

Ajoutez la ligne suivante :

export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Save et close le fichier, puis activez la variable d’environnement Spark à l’aide de la commande suivante ci-dessous :

source ~/.bashrc

Étape 3. Commencer Apache Serveur maître Spark.

À ce point, Apache l’étincelle est installée. Commençons maintenant son serveur maître autonome en exécutant son script :

start-master.sh

Par défaut, Apache Spark écoute sur le port 8080. Vous pouvez le vérifier avec la commande suivante :

ss -tunelp | grep 8080

Étape 4. Accéder au Apache Interface Web Spark.

Une fois configuré avec succès, accédez maintenant au Apache Interface Web Spark utilisant l’URL https://your-server-ip-address:8080. Vous devriez voir le Apache Service maître et esclave Spark sur l’écran suivant :

Dans cette configuration autonome à serveur unique, nous allons démarrer un serveur esclave avec le serveur maître. le start-slave.sh la commande est utilisée pour démarrer le processus Spark Worker :

start-slave.sh spark://ubuntu1:7077

Maintenant qu’un worker est opérationnel, si vous rechargez l’interface utilisateur Web de Spark Master, vous devriez le voir dans la liste :

Une fois la configuration terminée, démarrez le serveur maître et esclave, testez si le shell Spark fonctionne :

coquille d’étincelle

Vous obtiendrez l’interface suivante :

Session Spark disponible en tant que « étincelle ». Bienvenue dans ____ __ / __/__ ___ _____/ /__ _ / _ / _ `/ __/ ‘_/ /___/ .__/_,_/_/ /_/_ version 3.1. 2 /_/ Utilisation de Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12) Saisissez les expressions pour les évaluer. Tapez :help pour plus d’informations. échelle>

Toutes nos félicitations! Vous avez installé avec succès Apache Étincelle. Merci d’avoir utilisé ce tutoriel pour installer la dernière version de Apache Spark sur Debian 11 Bullseye. Pour une aide supplémentaire ou des informations utiles, nous vous recommandons de vérifier l’officiel Apache Site Web Spark.