Hadoop - Как Начать
Primary tabs
Forums:
ПРИМЕЧАНИЕ: начинайте отсюда (Привет Мир!), остальные полезные заметки здесь.
ПРИМЕЧАНИЕ:
многие команды далее начинают со слова hadoop, но может оказаться, что вам придётся начинать чуть
длиннее, а именно: bin/hadoop
Итак послед того как hadoop установлен, мы можем запустить его базовой командой которая выведет опции запуска - команда эта :
hadoop
получим:
hadoop Usage: hadoop [--config confdir] COMMAND where COMMAND is one of: fs run a generic filesystem user client version print the version jar <jar> run a jar file distcp <srcurl> <desturl> copy file or directories recursively archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive classpath prints the class path needed to get the Hadoop jar and the required libraries daemonlog get/set the log level for each daemon or CLASSNAME run the class named CLASSNAME
Теперь давайте попробуем такую команду (позволит нам увидеть список доступных примеров):
hadoop jar hadoop-*-examples.jar
При её использовании может возникнуть подобная решаемая проблема
Пример - программа посчёта слов
Теперь запустим конкретный пример wordcount (далее в синтаксисе команд, я учитываю только что упомянутую проблему):
hadoop jar hadoop-examples.jar wordcount
получим предупреждение о том, что необходимо создать входной и выходной каталоги:
Usage: wordcount < in > < out >
Так давайте же создадим входной каталог input c использованием команды:
mkdir input
ну и давайте положим туда какие-нибудь текстовые документы (например, можно скопировать пару-тройку статей из википедии)
Или же можно забросить туда файл CHANGES.txt из /usr/lib/hadoop-0.20-mapreduce/ .
Далее добавим входную директорию в "файловую систему" hadoop, в качестве такой директории я буду использовать /home/training/input: ,а потому выполню команду:
hadoop fs -mkdir /home/training/input
Теперь мы можем выполнить команду запуска программы подсчёта слов:
hadoop jar hadoop-examples.jar wordcount /home/training/input /home/training/output
Кстати - если вы захотите повторно запустить программу не забывайте удалить выходную директорию.
Возможна ситуация, что программа запустится, но не обнаружит подходящих файлов в директории - это можно исправить.
Источники:
- Open Source Big Data for the Impatient, Part 1:
ibm.com/developerworks/data/library/techarticle/dm-1209hadoopbigdata/
- Log in to post comments
- 8646 reads