Comment installer Apache Hadoop sur Debian 11

Dans ce tutoriel, nous allons vous montrer comment installer Apache Hadoop sur Debian 11. Pour ceux d’entre vous qui ne le savaient pas, Apache Hadoop est une plate-forme logicielle open source basée sur Java qui gère le traitement et le stockage des données pour les applications Big Data. Il est conçu pour passer de serveurs uniques à des milliers de machines, chacune offrant un calcul et un stockage locaux.

Cet article suppose que vous avez au moins des connaissances de base sur Linux, que vous savez utiliser le shell et, plus important encore, que vous hébergez votre site sur votre propre VPS. L’installation est assez simple et suppose que vous utilisez le compte root, sinon vous devrez peut-être ajouter ‘sudo‘ aux commandes pour obtenir les privilèges root. Je vais vous montrer l’installation étape par étape du Apache Hadoop sur une Debian 11 (Bullseye).

Installer Apache Hadoop sur Debian 11 Bullseye

Étape 1. Avant d’installer un logiciel, il est important de vous assurer que votre système est à jour en exécutant ce qui suit apt commandes dans le terminal :

sudo mise à jour appropriée
sudo mise à niveau appropriée

Étape 2. Installation de Java.

Apache Hadoop est une application basée sur Java. Vous devrez donc installer Java dans votre système :

sudo apt installer default-jdk default-jre

Vérifiez l’installation de Java :

java -version

Étape 3. Création d’un utilisateur Hadoop.

Exécutez la commande suivante pour créer un nouvel utilisateur avec le nom Hadoop :

adduser hadoop

Ensuite, passez à l’utilisateur Hadoop une fois l’utilisateur créé :

su – hadoop

Il est maintenant temps de générer la clé ssh car Hadoop nécessite un accès ssh pour gérer son nœud, sa machine distante ou locale, donc pour notre nœud unique de la configuration de Hadoop, nous configurons de manière à avoir accès à l’hôte local :

ssh-keygen -t rsa

Après cela, donnez la permission au fichier allowed_keys :

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys

Ensuite, vérifiez la connexion SSH sans mot de passe avec la commande suivante :

ssh votre-serveur-adresse-IP

Étape 4. Installation Apache Hadoop sur Debian 11.

Tout d’abord, passez à l’utilisateur Hadoop et téléchargez la dernière version d’Hadoop à partir de la page officielle en utilisant ce qui suit wget commander:

su – hadoop wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-src.tar.gz

Ensuite, extrayez le fichier téléchargé avec la commande suivante :

tar -xvzf hadoop-3.3.1.tar.gz

Une fois décompressé, remplacez le répertoire actuel par le dossier Hadoop :

su root cd /home/hadoop mv hadoop-3.3.1 /usr/local/hadoop

Ensuite, créez un répertoire pour stocker le journal avec la commande suivante :

mkdir /usr/local/hadoop/logs

Remplacez la propriété du répertoire Hadoop par Hadoop :

chown -R hadoop:hadoop /usr/local/hadoop su hadoop

Après cela, nous configurons les variables d’environnement Hadoop :

nano ~/.bashrc

Ajoutez la configuration suivante :

export HADOOP_HOME=/usr/local/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME_HOME export YARN_HOME=$lib HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME_HOME export YARN_HOME=$ HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS=”-Djava.library.path=$HADOOP_HOME/lib/native”

Save et close le fichier. Ensuite, activez les variables d’environnement :

source ~/.bashrc

Étape 5. Configurer Apache Hadoop.

  • Configurez les variables d’environnement Java :

sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Ajoutez la configuration suivante :

exporter JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 exporter HADOOP_CLASSPATH+=” $HADOOP_HOME/lib/*.jar”

Ensuite, nous devons télécharger le fichier d’activation Javax :

cd /usr/local/hadoop/lib
sudo wget https://jcenter.bintray.com/javax/activation/javax.activation-api/1.2.0/javax.activation-api-1.2.0.jar

Vérifiez le Apache Version Hadoop :

version hadoop

Sortir:

Hadoop 3.3.1

  • Configurez le fichier core-site.xml :

nano $HADOOP_HOME/etc/hadoop/core-site.xml

Ajoutez le fichier suivant :

fs.default.name hdfs://0.0.0.0:9000 L’URI du système de fichiers par défaut

  • Configurez le fichier hdfs-site.xml :

Avant de configurer, créez un répertoire pour stocker les métadonnées du nœud :

mkdir -p /home/hadoop/hdfs/{namenode,datanode} chown -R hadoop:hadoop /home/hadoop/hdfs

Ensuite, modifiez le hdfs-site.xml fichier et définissez l’emplacement du répertoire :

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Ajoutez la ligne suivante :

dfs.replication 1 dfs.name.dir file:// /home/hadoop/hdfs/namenode dfs.data.dir file:///home/hadoop/hdfs/datanode

  • Configurez le fichier mapred-site.xml :

Maintenant, nous éditons le mapred-site.xml déposer:

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Ajoutez la configuration suivante :

mapreduce.framework.name fil

  • Configurez le fichier fil-site.xml :

Vous auriez besoin de modifier le yarn-site.xml fichier et définissez les paramètres liés à YARN :

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Ajoutez la configuration suivante :

yarn.nodemanager.aux-services mapreduce_shuffle

  • Format HDFS NameNode.

Exécutez la commande suivante pour formater le Hadoop Namenode :

format-objectif hdfs

  • Démarrez le cluster Hadoop.

Maintenant, nous commençons le NameNode et le DataNode avec la commande suivante ci-dessous :

start-dfs.sh

Ensuite, démarrez les gestionnaires de ressources et de nœuds YARN :

fil-start.sh

Vous pouvez maintenant les vérifier avec la commande suivante :

jps

Sortir:

[email protected]:~$ jps 58000 NameNode 54697 DataNode 55365 ResourceManager 55083 SecondaryNameNode 58556 Jps 55365 NodeManager

Étape 6. Accès à l’interface Web Hadoop.

Une fois installé avec succès, ouvrez votre navigateur Web et accédez Apache Hadoop à l’aide de l’URL https://your-server-ip-address:9870. Vous serez redirigé vers l’interface Web Hadoop :

Naviguez sur votre URL ou IP d’hôte local pour accéder à des DataNodes individuels : https://your-server-ip-address:9864

Pour accéder au gestionnaire de ressources YARN, utilisez l’URL https://your-server-ip-adddress:8088. Vous devriez voir l’écran suivant :

Toutes nos félicitations! Vous avez correctement installé Hadoop. Merci d’avoir utilisé ce tutoriel pour installer la dernière version de Apache Hadoop sur Debian 11 Bullseye. Pour une aide supplémentaire ou des informations utiles, nous vous recommandons de vérifier l’officiel Apache site Internet.