HADOOP - Статьи

Полезно к изучению :

  1. Hadoop Tutorial. Пишем свой grep: habrahabr.ru/post/189798/
  2. Вы понимаете Hadoop неправильно - habrahabr.ru/post/194314/
  3. Вам не нужен Hadoop — у вас просто нет столько данных - habrahabr.ru/post/194434/
  4. Hadoop как ETL-killer - pcweek.ru/idea/blog/idea/6159.php

Hadoop и Python

  1. Hadoop from a Python Perspective: chase-seibert.github.io/blog/2013/06/21/hadoop-from-a-python-perspective.html

Class JobConf класс -Hadoop

ПРИМЕЧАНИЕ: функционал из данного класса теперь перенесён

java.lang.Object
  extended by org.apache.hadoop.conf.Configuration
      extended by org.apache.hadoop.mapred.JobConf

Пример конфигурации задачи с помощью JobConf

Hadoop Job Class - описание

Job - отвечает за порядок исполнения задачи, пример конфигурирования здесь

Хадуп - FileInputFormat - Class FileInputFormat<K,V>

FileInputFormat -базовый класс для всех основанных на файлах входных форматах (InputFormat)

Источники
hadoop.apache.org/docs/r2.2.0/api/org/apache/hadoop/mapred/FileInputFormat.html

Mapper (мэппер) - хадуп - Interface Mapper

Мэппер отображает входные данные (пары ключ/значение) в промежуточные данные (опять же ключ/значение )
входные и выходные значения не должны быть одного типа

Одна входная пара может быть отражена ( отображена - map) в ноль или более выходных пар (то есть может вообще не отражаться).

Hadoop - фунция map - описание

protected void map(KEYIN key,
                   VALUEIN value,
                   Mapper.Context context)
            throws IOException,
                   InterruptedException

Функция map вызывается для каждой пары ключ-значение из входного разбиения ( input split). По-умолчание такое отображение тождественно (потому большинству приложений приходится переопределять данную функцию).

Called once for each key/value pair in the input split. Most applications should override this, but the default is the identity function.

Hadoop InputSplit - Описание - Interface InputSplit

@InterfaceAudience.Public
@InterfaceStability.Stable
public interface InputSplit
extends Writable

InputSplit представляет данные, которые должны быть обработаны единственным мэппером

Как правило - на выходе InputSplit - это байт-ориентированные данные. за их приведение к типу записи (стуктруктурирование) отвечает RecordReader выполняемой задачи (задания).

InputSplit represents the data to be processed by an individual Mapper.

InputFormat - хадуп - Interface InputFormat<K,V>

InputFormat describes the input-specification for a Map-Reduce job.

InputFormat описывает входные параметры для задачи типа Map-Reduce

По умолчанию - файловый формат входных данных обычно описывают с помощью подклассов FileInputFormat, где специфицируется порядок разбиение ввода на на логические входные фрагменты (InputSplit) - размер этих фрагментов зависит от общего размера (в байтах) входных файлов.

Hadoop - Принцип Работы

Стадии обработки данных:

Input -> Map -> Mapper Output -> Sort and shuffle -> Reduce -> Final Output  

Итак, этапы:
Тасовка (shuffle) - Hadoop

ошибка - unreported exception InterruptedException; must be caught or declared to be thrown

при определении или переопределении метода - надо указать какие исключения он может генерировать - пример здесь

Pages

Subscribe to fkn+antitotal RSS