mapTask并行度的決定機制

  一個job的map階段并行度由客戶端在提交job時決定,而客戶端對map階段并行度的規(guī)劃的基本邏輯為:將待處理數(shù)據(jù)執(zhí)行邏輯切片(即按照一個特定切片大小,將待處理數(shù)據(jù)劃分成邏輯上的多個split),然后每一個split分配一個mapTask并行實例處理。

FileInputFormat切片機制

原文和作者一起討論:http://www.cnblogs.com/intsmaze/p/6733968.html

微信:intsmaze(非誠勿擾)

萬碼學堂,電腦培訓,計算機培訓,Java培訓,JavaEE開發(fā)培訓,青島軟件培訓,軟件工程師培訓

1、默認切片定義在InputFormat類中的getSplit()方法

萬碼學堂,電腦培訓,計算機培訓,Java培訓,JavaEE開發(fā)培訓,青島軟件培訓,軟件工程師培訓

2、FileInputFormat中默認的切片機制:<