MapReduce是Google在2004年发表的论文《MapReduce: Simplified Data Processing on Large Clusters》中提出的一个用于分布式的用于大规模数据处理的编程模型。

MapReduce将数据的处理分成了两个步骤,Map和Reduce。Map将输入的数据集拆分成一批KV对并输出,对于每一个<k1, v1>,Map将输出一批<k2, v2>;Reduce将Map对Map中产生的结果进行汇总,对于每一个<k2, list(v2)>list(v2)是所有key为k2的value),Reduce将输出结果<k3, v3>

以单词出现次数统计程序为例,map对文档中每个单词都输出<word, 1>,reduce则会统计每个单词对应的list的长度,输出<word, n>

  1. map(String key, String value):
  2. // key: document name
  3. // value: document contents
  4. for each word w in value:
  5. EmitIntermediate(w, 1″);
  6. reduce(String key, Iterator values):
  7. // key: a word
  8. // values: a list of counts
  9. int result = 0;
  10. for each v in values:
  11. result += ParseInt(v);
  12. Emit(AsString(result));

MapReduce的流程如下:

  1. 将输入拆分成M个段,产生M个Map任务和R个Reduce任务。
  2. 创建1个master和n个worker,master会将Map和Reduce分派给worker执行。
  3. 被分配了Map任务的worker从输入中读取解析出KV对,传递给用户提供的Map函数,得到中间的一批KV对。
  4. 将中间的KV对使用分区函数分配到R个区域上,并保存到磁盘中,当Map任务执行完成后将保存的位置返回给master。
  5. Reduce worker根据master传递的参数从文件系统中读取数据,解析出KV对,并对具有相同key的value进行聚合,产生<k2, list(v2)>。如果无法在内存中进行排序,就需要使用外部排序。
  6. 对于每一个唯一的key,将<k2, list(v2)>传递给用户提供的Reduce函数,将函数的返回值追加到输出文件中。
  7. 当所有任务都完成后,MapReduce程序返回

MapReduce的整个流程并不复杂,就是将数据分片后提交给map执行,执行产生的中间结果经过处理后再交给reduce执行,产生最终结果。

当worker发生故障时,可以通过心跳等方法进行检测,当检测到故障之后就可以将任务重新分派给其他worker重新执行。

当master发生故障时,可以通过检查点(checkpoint)的方法来进行恢复。然而由于master只有一个,比较难进行恢复,因此可以让用户检测并重新执行任务。

对于输出文件来说,需要保证仍在写入中的文件不被读取,即保证操作的原子性。可以通过文件系统重命名操作的原子性来实现,先将结果保存在临时文件中,当执行完成后再进行重命名。使用这种方法就可以将有副作用的write变为幂等(总是产生相同结果的运算,如a = 2就是幂等的,而a += 2则不是)的重命名。

影响任务的总执行时间的重要因素就是落伍者:在运算中某个机器用了很长时间才完成了最后的几个任务,从而增加了总的执行时间。对于这种情况,可以在任务即将完成时,将剩余的任务交给备用者进程来执行,无论是最初的worker完成了任务还是备用者完成了,都可以将任务标记为完成。

对于map产生的结果,通过分区函数来将相同key的KV对分配给同一个reduce来执行。默认的分区函数是hash(key) % R,但在某些情况下也可以选择其他分区函数。如key为URL时,希望相同主机的结果在同一个输出中,那么就可以用hash(hostname(key)) % R作为分区函数。

实现部分是基于MIT 6.824的实验完成的。

  1. type Coordinator struct {
  2. mapJobs []Job
  3. reduceJobs []Job
  4. status int
  5. nMap int
  6. remainMap int
  7. nReduce int
  8. remainReduce int
  9. lock sync.Mutex
  10. }
  11. func MakeCoordinator(files []string, nReduce int) *Coordinator {
  12. c := Coordinator{}
  13. c.status = MAP
  14. c.nMap = len(files)
  15. c.remainMap = c.nMap
  16. c.nReduce = nReduce
  17. c.remainReduce = c.nReduce
  18. c.mapJobs = make([]Job, len(files))
  19. c.reduceJobs = make([]Job, nReduce)
  20. for idx, file := range files {
  21. c.mapJobs[idx] = Job{[]string{file}, WAITTING, idx}
  22. }
  23. for idx := range c.reduceJobs {
  24. c.reduceJobs[idx] = Job{[]string{}, WAITTING, idx}
  25. }
  26. c.server()
  27. return &c
  28. }
  29. func (c *Coordinator) timer(status *int) {
  30. time.Sleep(time.Second * 10)
  31. c.lock.Lock()
  32. if *status == RUNNING {
  33. log.Printf("timeout\n")
  34. *status = WAITTING
  35. }
  36. c.lock.Unlock()
  37. }
  38. func (c *Coordinator) AcquireJob(args *AcquireJobArgs, reply *AcquireJobReply) error {
  39. c.lock.Lock()
  40. defer c.lock.Unlock()
  41. fmt.Printf("Acquire: %+v\n", args)
  42. if args.CommitJob.Index >= 0 {
  43. if args.Status == MAP {
  44. if c.mapJobs[args.CommitJob.Index].Status == RUNNING {
  45. c.mapJobs[args.CommitJob.Index].Status = FINISHED
  46. for idx, file := range args.CommitJob.Files {
  47. c.reduceJobs[idx].Files = append(c.reduceJobs[idx].Files, file)
  48. }
  49. c.remainMap--
  50. }
  51. if c.remainMap == 0 {
  52. c.status = REDUCE
  53. }
  54. } else {
  55. if c.reduceJobs[args.CommitJob.Index].Status == RUNNING {
  56. c.reduceJobs[args.CommitJob.Index].Status = FINISHED
  57. c.remainReduce--
  58. }
  59. if c.remainReduce == 0 {
  60. c.status = FINISH
  61. }
  62. }
  63. }
  64. if c.status == MAP {
  65. for idx := range c.mapJobs {
  66. if c.mapJobs[idx].Status == WAITTING {
  67. reply.NOther = c.nReduce
  68. reply.Status = MAP
  69. reply.Job = c.mapJobs[idx]
  70. c.mapJobs[idx].Status = RUNNING
  71. go c.timer(&c.mapJobs[idx].Status)
  72. return nil
  73. }
  74. }
  75. reply.NOther = c.nReduce
  76. reply.Status = MAP
  77. reply.Job = Job{Files: make([]string, 0), Index: -1}
  78. } else if c.status == REDUCE {
  79. for idx := range c.reduceJobs {
  80. if c.reduceJobs[idx].Status == WAITTING {
  81. reply.NOther = c.nMap
  82. reply.Status = REDUCE
  83. reply.Job = c.reduceJobs[idx]
  84. c.reduceJobs[idx].Status = RUNNING
  85. go c.timer(&c.reduceJobs[idx].Status)
  86. return nil
  87. }
  88. }
  89. reply.NOther = c.nMap
  90. reply.Status = REDUCE
  91. reply.Job = Job{Files: make([]string, 0), Index: -1}
  92. } else {
  93. reply.Status = FINISH
  94. }
  95. return nil
  96. }

Coordinator中保存所有的任务信息以及执行状态,worker通过AcquireJob来提交和申请任务,要等待所有map任务完成后才能执行reduce任务。这里就简单的将每一个文件都作为一个任务。

  1. func doMap(mapf func(string, string) []KeyValue, job *Job, nReduce int) (files []string) {
  2. outFiles := make([]*os.File, nReduce)
  3. for idx := range outFiles {
  4. outFile, err := ioutil.TempFile("./", "mr-tmp-*")
  5. if err != nil {
  6. log.Fatalf("create tmp file failed: %v", err)
  7. }
  8. defer outFile.Close()
  9. outFiles[idx] = outFile
  10. }
  11. for _, filename := range job.Files {
  12. file, err := os.Open(filename)
  13. if err != nil {
  14. log.Fatalf("cannot open %v", filename)
  15. }
  16. content, err := ioutil.ReadAll(file)
  17. if err != nil {
  18. log.Fatalf("cannot read %v", filename)
  19. }
  20. file.Close()
  21. kva := mapf(filename, string(content))
  22. for _, kv := range kva {
  23. hash := ihash(kv.Key) % nReduce
  24. js, _ := json.Marshal(kv)
  25. outFiles[hash].Write(js)
  26. outFiles[hash].WriteString("\n")
  27. }
  28. }
  29. for idx := range outFiles {
  30. filename := fmt.Sprintf("mr-%d-%d", job.Index, idx)
  31. os.Rename(outFiles[idx].Name(), filename)
  32. files = append(files, filename)
  33. }
  34. return
  35. }
  36. func doReduce(reducef func(string, []string) string, job *Job, nMap int) {
  37. log.Printf("Start reduce %d", job.Index)
  38. outFile, err := ioutil.TempFile("./", "mr-out-tmp-*")
  39. defer outFile.Close()
  40. if err != nil {
  41. log.Fatalf("create tmp file failed: %v", err)
  42. }
  43. m := make(map[string][]string)
  44. for _, filename := range job.Files {
  45. file, err := os.Open(filename)
  46. if err != nil {
  47. log.Fatalf("cannot open %v", filename)
  48. }
  49. scanner := bufio.NewScanner(file)
  50. for scanner.Scan() {
  51. kv := KeyValue{}
  52. if err := json.Unmarshal(scanner.Bytes(), &kv); err != nil {
  53. log.Fatalf("read kv failed: %v", err)
  54. }
  55. m[kv.Key] = append(m[kv.Key], kv.Value)
  56. }
  57. if err := scanner.Err(); err != nil {
  58. log.Fatal(err)
  59. }
  60. file.Close()
  61. }
  62. for key, value := range m {
  63. output := reducef(key, value)
  64. fmt.Fprintf(outFile, "%v %v\n", key, output)
  65. }
  66. os.Rename(outFile.Name(), fmt.Sprintf("mr-out-%d", job.Index))
  67. log.Printf("End reduce %d", job.Index)
  68. }
  69. //
  70. // main/mrworker.go calls this function.
  71. //
  72. func Worker(mapf func(string, string) []KeyValue,
  73. reducef func(string, []string) string) {
  74. CallExample()
  75. var status int = MAP
  76. args := AcquireJobArgs{Job{Index: -1}, MAP}
  77. for {
  78. args.Status = status
  79. reply := AcquireJobReply{}
  80. call("Coordinator.AcquireJob", &args, &reply)
  81. fmt.Printf("AcReply: %+v\n", reply)
  82. if reply.Status == FINISH {
  83. break
  84. }
  85. status = reply.Status
  86. if reply.Job.Index >= 0 {
  87. // get a job, do it
  88. commitJob := reply.Job
  89. if status == MAP {
  90. commitJob.Files = doMap(mapf, &reply.Job, reply.NOther)
  91. } else {
  92. doReduce(reducef, &reply.Job, reply.NOther)
  93. commitJob.Files = make([]string, 0)
  94. }
  95. // job finished
  96. args = AcquireJobArgs{commitJob, status}
  97. } else {
  98. // no job, sleep to wait
  99. time.Sleep(time.Second)
  100. args = AcquireJobArgs{Job{Index: -1}, status}
  101. }
  102. }
  103. }

worker通过RPC调用向Coordinator.AcquireJob申请和提交任务,之后根据任务类型执行doMapdoReduce

doMap函数读取目标文件并将<filename, content>传递给map函数,之后将返回值根据hash(key) % R写入到目标中间文件中去。

doReduce函数则从目标文件中读取KV对并加载到内存中,对相同的key进行合并(这里我是用map来做的,但是之后看论文发现是用排序来做的,这样可以保证在每个输出文件中的key是有序的)。合并之后就将<key, list(value)>交给reduce函数处理,最后把返回值写入到结果文件中去。

版权声明:本文为weijunji原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/weijunji/p/14427047.html