сайт о программировании

addInputPath метод FileInputFormat

addInputPath

public static void addInputPath(JobConf conf, Path path)

Добавляет путь к списку входных объектов для задачи отражения-редуцирования

Параметры:
conf - конфигурация задачи ОР - тип JobConf
path - Path to be added to the list of inputs for the map-reduce job.

Add a Path to the list of inputs for the map-reduce job.

Job класс Hadoop - пример создания объекта

Прокомментируем процесс создания задачи (Job), который используется в стандартном примере:

Class JobConf класс -Hadoop

ПРИМЕЧАНИЕ: функционал из данного класса теперь перенесён

java.lang.Object
  extended by org.apache.hadoop.conf.Configuration
      extended by org.apache.hadoop.mapred.JobConf

Пример конфигурации задачи с помощью JobConf

Hadoop Job Class - описание

Job - отвечает за порядок исполнения задачи, пример конфигурирования здесь

Хадуп - FileInputFormat - Class FileInputFormat<K,V>

FileInputFormat -базовый класс для всех основанных на файлах входных форматах (InputFormat)

Источники
hadoop.apache.org/docs/r2.2.0/api/org/apache/hadoop/mapred/FileInputFormat.html

Mapper (мэппер) - хадуп - Interface Mapper

Мэппер отображает входные данные (пары ключ/значение) в промежуточные данные (опять же ключ/значение )
входные и выходные значения не должны быть одного типа

Одна входная пара может быть отражена ( отображена - map) в ноль или более выходных пар (то есть может вообще не отражаться).

Hadoop - фунция map - описание

protected void map(KEYIN key,
                   VALUEIN value,
                   Mapper.Context context)
            throws IOException,
                   InterruptedException

Функция map вызывается для каждой пары ключ-значение из входного разбиения ( input split). По-умолчание такое отображение тождественно (потому большинству приложений приходится переопределять данную функцию).

Called once for each key/value pair in the input split. Most applications should override this, but the default is the identity function.

Hadoop InputSplit - Описание - Interface InputSplit

@InterfaceAudience.Public
@InterfaceStability.Stable
public interface InputSplit
extends Writable

InputSplit представляет данные, которые должны быть обработаны единственным мэппером

Как правило - на выходе InputSplit - это байт-ориентированные данные. за их приведение к типу записи (стуктруктурирование) отвечает RecordReader выполняемой задачи (задания).

InputSplit represents the data to be processed by an individual Mapper.

InputFormat - хадуп - Interface InputFormat<K,V>

InputFormat describes the input-specification for a Map-Reduce job.

InputFormat описывает входные параметры для задачи типа Map-Reduce

По умолчанию - файловый формат входных данных обычно описывают с помощью подклассов FileInputFormat, где специфицируется порядок разбиение ввода на на логические входные фрагменты (InputSplit) - размер этих фрагментов зависит от общего размера (в байтах) входных файлов.

ошибка - unreported exception InterruptedException; must be caught or declared to be thrown

при определении или переопределении метода - надо указать какие исключения он может генерировать - пример здесь

Pages

Subscribe to RSS - сайт о программировании