ВГУ информатика

Тасовка (shuffle) - Hadoop

Во многих отношениях тасовка - это "сердце" Hadoop - "то место, где происходят чудеса"
- (с)

Тасовка - единственный после (или "до" -если подразумевать возможность выполнения следующей задачи) процесса распределения входных данных по узлам, где происходит обмен данными между узлами - это процесс пересылки данных от разных мэпперов разным редукторам.

WordCount - подсчёт максимума - результат

для таких вот входных файлов (первая группа)

!	2
!!	2
%%	1
&	1
&&	1
)	1
+	1
++	2
.	1
888	1
=)	1
Freedom	3
Life	1
Linux	1
are.	1
good	1
is	4
life.	1
of	2
part	2
we	1
where	1
maximum=====  	0
is	4
-------------- 	0

Hadoop - пример входных файлов для обработки (текстовые файлы)

Первая группа

Для начальных экспериментов нам хватит двух файлов -
1-ый:

Linux is part of Freedom . ! ) !!
Freedom is good =)
&& & ! !!
%%
888
++ + ++

Второй:

Freedom is part of life.
Life is where we are.

Job и JobConf в Hadoop

в новом API за конструирование задачи и последующее исполнение теперь отвечает класс Job, а не JobConf

Context.write() вместо OutputCollector.collect()

Context.write() используется вместо OutputCollector.collect() после версии ядра 0.20
Пример для редуктора здесь.

Алгоритм Брезенхема для прямой и окружности

алгоритм немного недоделанный
прямая пока может быть задана только под определенным углом
/
будет допилено и исправлено (готовую задачу не нашел, а переписывать сейчас влом)

Задача отражения-редуцирования (Hadoop Job) - ЗОР - задача ОР

Предлагаю называть "Hadoop Job" по-русски именно так - задача отражения-редуцирования - ЗОР - задача ОР (не против если кто-то предложит лучший перевод)
В принципе можно и задача Распределения и СведЕния (РС)
Или же - "распределения и редукции" (РР)

addInputPath метод FileInputFormat

addInputPath

public static void addInputPath(JobConf conf, Path path)

Добавляет путь к списку входных объектов для задачи отражения-редуцирования

Параметры:
conf - конфигурация задачи ОР - тип JobConf
path - Path to be added to the list of inputs for the map-reduce job.

Add a Path to the list of inputs for the map-reduce job.

Job класс Hadoop - пример создания объекта

Прокомментируем процесс создания задачи (Job), который используется в стандартном примере:

Class JobConf класс -Hadoop

ПРИМЕЧАНИЕ: функционал из данного класса теперь перенесён

java.lang.Object
  extended by org.apache.hadoop.conf.Configuration
      extended by org.apache.hadoop.mapred.JobConf

Пример конфигурации задачи с помощью JobConf

Pages

Subscribe to RSS - ВГУ информатика