pandas | 使用pandas进行数据处理—

本文始发于个人公众号：TechFlow，原创不易，求个关注

今天是pandas数据处理专题的第二篇文章，我们一起来聊聊pandas当中最重要的数据结构——DataFrame。

上一篇文章当中我们介绍了Series的用法，也提到了Series相当于一个一维的数组，只是pandas为我们封装了许多方便好用的api。而DataFrame可以简单了理解成Series构成的dict，这样就将数据拼接成了二维的表格。并且为我们提供了许多表级别数据处理以及批量数据处理的接口，大大降低了数据处理的难度。

创建DataFrame

DataFrame是一个表格型的数据结构，它拥有两个索引，分别是行索引以及列索引，使得我们可以很方便地获取对应的行以及列。这就大大降低了我们查找数据处理数据的难度。

首先，我们先从最简单的开始，如何创建一个DataFrame。

从字典创建

我们创建了一个dict，它的key是列名，value是一个list，当我们将这个dict传入DataFrame的构造函数的时候，它将会以key作为列名，value作为对应的值为我们创建一个DataFrame。

当我们在jupyter输出的时候，它会自动为我们将DataFrame中的内容以表格的形式展现。

从numpy数据创建

我们也可以从一个numpy的二维数组来创建一个DataFrame，如果我们只是传入numpy的数组而不指定列名的话，那么pandas将会以数字作为索引为我们创建列：

我们在创建的时候为columns这个字段传入一个string的list即可为它指定列名：

从文件读取

pandas另外一个非常强大的功能就是可以从各种格式的文件当中读取数据创建DataFrame，比如像是常用的excel、csv，甚至是数据库也可以。

对于excel、csv、json等这种结构化的数据，pandas提供了专门的api，我们找到对应的api进行使用即可：

如果是一些比较特殊格式的，也没有关系，我们使用read_table，它可以从各种文本文件中读取数据，通过传入分隔符等参数完成创建。比如在上一篇验证PCA降维效果的文章当中，我们从.data格式的文件当中读取了数据。该文件当中列和列之间的分隔符是空格，而不是csv的逗号或者是table符。我们通过传入sep这个参数，指定分隔符就完成了数据的读取。

这个header参数表示文件的哪些行作为数据的列名，默认header=0，也即会将第一行作为列名。如果数据当中不存在列名，需要指定header=None，否则会产生问题。我们很少会出现需要用到多级列名的情况，所以一般情况下最常用的就是取默认值或者是令它等于None。

在所有这些创建DataFrame的方法当中最常用的就是最后一种，从文件读取。因为我们做机器学习或者是参加kaggle当中的一些比赛的时候，往往数据都是现成的，以文件的形式给我们使用，需要我们自己创建数据的情况很少。如果是在实际的工作场景，虽然数据不会存在文件当中，但是也会有一个源头，一般是会存储在一些大数据平台当中，模型从这些平台当中获取训练数据。

所以总体来说，我们很少使用其他创建DataFrame的方法，我们有所了解，着重掌握从文件读取的方法即可。