SequenceFileInputFormat区别TextInputFormat

baoendemao 2021-08-15 原文

通过InputFormat，Hadoop可以：

l 检查MapReduce输入数据的正确性；

l 将输入数据切分为逻辑块InputSplit，这些块会分配给Mapper；

l 提供一个RecordReader实现，Mapper用该实现从InputSplit中读取输入的<K,V>对。

通过FileInputFormat。下面几个参数可以用于配置FileInputFormat：

l mapred.input.pathFilter.class：输入文件过滤器，通过过滤器的文件才会加入InputFormat；

l mapred.min.split.size：最小的划分大小；

l mapred.max.split.size：最大的划分大小；

l mapred.input.dir：输入路径，用逗号做分割。

java.lang.Object
  org.apache.hadoop.mapreduce.InputFormat<K,V>
      org.apache.hadoop.mapreduce.lib.input.FileInputFormat<K,V>
          org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat<K,V>

java.lang.Object
  org.apache.hadoop.mapreduce.InputFormat<K,V>
      org.apache.hadoop.mapreduce.lib.input.FileInputFormat<LongWritable,Text>
          org.apache.hadoop.mapreduce.lib.input.TextInputFormat

TextInputFormat: 默认的输入格式，行号为Key，文件中该行的内容为value

SequenceFileInputFormat: key-value 对的二进制文件

	通过如下方式进行设置使用：

 	job.setInputFormatClass(SequenceFileInputFormat.class);
   	job.setOutputFormatClass(SequenceFileOutputFormat.class);

本文链接：https://www.cnblogs.com/baoendemao/p/3804713.html

随机推荐

转换成CSV文件、Word、Excel、PDF等的方法–读取CSV文件的方法

1. 转换成CSV文件： http://www.dotnetgallery.com/lab/resource9 […]...

Top 125 Network Security Tools

http://sectools.org/ SecTools.Org: Top 125 Network Secu […]...

Android酷炫实用的开源框架（UI框架）

Android酷炫实用的开源框架（UI框架）前言忙碌的工作终于可以停息一段时间了，最近突然有一个想法，就是 […]...

python-nmap 使用基础

本篇简要介绍python-nmap的基本使用。前言　　python-nmap是一个Python库，可帮助您 […]...

Laravel框架内实现api文档:markdown转为html

前后端分离的工作模式于今是非常流行了，前后端工作的对接，就离开不了API文档的辅助。根据自己以往的工作经历， […]...

[论文解读]CNN网络可视化——Visualizing and Understanding Convolutional Networks

[论文解读]CNN网络可视化——Visualizing and Understanding Convoluti […]...

泛圈科技Yottachain区块链云存储大数据存储市场的一片红海

提供云存储服务的企业经过是通过中心化服务器来确保客户数据的安全，这种中心化服务器意味着容易受到来自黑客的网 […]...

CPLEX在Linux上的安装与配置

Linux安装Cplex 1.官网下载：cplex_studio128.linux-x86-64.bin 2. […]...

SequenceFileInputFormat区别TextInputFormat

SequenceFileInputFormat区别TextInputFormat的更多相关文章

随机推荐

热门专题

目录导航