Hadoop - Как Начать

ПРИМЕЧАНИЕ: начинайте отсюда (Привет Мир!), остальные полезные заметки здесь.

ПРИМЕЧАНИЕ:

многие команды далее начинают со слова hadoop, но может оказаться, что вам придётся начинать чуть
длиннее, а именно: bin/hadoop

Итак послед того как hadoop установлен, мы можем запустить его базовой командой которая выведет опции запуска - команда эта :

hadoop

получим:

 hadoop
Usage: hadoop [--config confdir] COMMAND
       where COMMAND is one of:
  fs                   run a generic filesystem user client
  version              print the version
  jar <jar>            run a jar file
  distcp <srcurl> <desturl> copy file or directories recursively
  archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
  classpath            prints the class path needed to get the
                       Hadoop jar and the required libraries
  daemonlog            get/set the log level for each daemon
 or
  CLASSNAME            run the class named CLASSNAME

Теперь давайте попробуем такую команду (позволит нам увидеть список доступных примеров):

hadoop jar hadoop-*-examples.jar

При её использовании может возникнуть подобная решаемая проблема

Пример - программа посчёта слов

Теперь запустим конкретный пример wordcount (далее в синтаксисе команд, я учитываю только что упомянутую проблему):

hadoop jar hadoop-examples.jar wordcount

получим предупреждение о том, что необходимо создать входной и выходной каталоги:

Usage: wordcount  < in > < out >

Так давайте же создадим входной каталог input c использованием команды:

mkdir input

ну и давайте положим туда какие-нибудь текстовые документы (например, можно скопировать пару-тройку статей из википедии)
Или же можно забросить туда файл CHANGES.txt из /usr/lib/hadoop-0.20-mapreduce/ .

Далее добавим входную директорию в "файловую систему" hadoop, в качестве такой директории я буду использовать /home/training/input: ,а потому выполню команду:

hadoop fs -mkdir /home/training/input

Теперь мы можем выполнить команду запуска программы подсчёта слов:

hadoop jar hadoop-examples.jar wordcount /home/training/input   /home/training/output

Кстати - если вы захотите повторно запустить программу не забывайте удалить выходную директорию.
Возможна ситуация, что программа запустится, но не обнаружит подходящих файлов в директории - это можно исправить.

Источники:

  1. Open Source Big Data for the Impatient, Part 1:
    ibm.com/developerworks/data/library/techarticle/dm-1209hadoopbigdata/