Mapper (мэппер) - хадуп - Interface Mapper

Мэппер отображает входные данные (пары ключ/значение) в промежуточные данные (опять же ключ/значение )
входные и выходные значения не должны быть одного типа

Одна входная пара может быть отражена ( отображена - map) в ноль или более выходных пар (то есть может вообще не отражаться).

Hadoop Map-Reduce framework порождает так называемое задание (подзадачу) (task) для каждого InputSplit, определённого InputFormat для данной задачи (job)

Сначала хадуп вызывает setup(org.apache.hadoop.mapreduce.Mapper.Context), за которым следует вызов map(Object, Object, Context) для каждой пары ключ-значение из InputSplit. Finally cleanup(Context) is called. После всего вызывается метод мэппера cleanup(Context).

Все данные на выходе мэппера группируются хадупом по ключу и данная группа отправлется Reducer-у с целью получить окончательный результат - пользователь может контролировать какие ключи (и, следовательно - записи) отправлять какому редуктору посредством реализации собственного класса типа Partitioner.

. Users can control which keys (and hence records) go to which Reducer by implementing a custom Partitioner

Источники

  1. hadoop.apache.org/docs/r1.0.4/api/org/apache/hadoop/mapreduce/Mapper.html