Partitioner (класс в 2.2.0) - назовём его разделитель прежде всего позволяет манипулировать значением ключа для пары ключ-значение - и таким образом манипулировать группировка пар для обработки конкретным редуктором.
Для использования достаточно реализовать (переопределить) такой метод:
int getPartition(K2 key, // ключ очередной пары
V2 value, // ключ очередной пары
int numPartitions) // число
Источники
hadoop.apache.org/docs/r1.1.1/api/org/apache/hadoop/mapred/Partitioner.html
Во многих отношениях тасовка - это "сердце" Hadoop - "то место, где происходят чудеса"
- (с)
Тасовка - единственный после (или "до" -если подразумевать возможность выполнения следующей задачи) процесса распределения входных данных по узлам, где происходит обмен данными между узлами - это процесс пересылки данных от разных мэпперов разным редукторам.
! 2
!! 2
%% 1
& 1
&& 1
) 1
+ 1
++ 2
. 1
888 1
=) 1
Freedom 3
Life 1
Linux 1
are. 1
good 1
is 4
life. 1
of 2
part 2
we 1
where 1
maximum===== 0
is 4
-------------- 0
алгоритм немного недоделанный
прямая пока может быть задана только под определенным углом
/
будет допилено и исправлено (готовую задачу не нашел, а переписывать сейчас влом)