被 Pandas read_csv 坑了

jpld 2020-12-20 原文

被 Pandas read_csv 坑了

— 不怕前路坎坷，只怕从一开始就走错了方向

Pandas 是python的一个数据分析包，纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas 就是为解决数据分析任务生的，无论是数据分析还是机器学习项目数据预处理中， Pandas 无处不在。

最近掉进一坑，差点铸成大错。实在没想到居然栽在pandas.read_csv上了，这里分享一下，希望大家注意。

另：业务数据不方便拿出来演示，为尽可能复现，这里我手造了一份，另存为 income.csv 文件。

看起来都是正经的数据

翻船记

读取csv文件小菜一碟

import numpy as np
import pandas as pd
df = pd.read_csv(r'C:\...\income.csv',encoding='utf-8')

读好了看看数据信息吧：

df.info()


RangeIndex: 6 entries, 0 to 5
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   income  6 non-null      object
dtypes: object(1)
memory usage: 176.0+ bytes

诶，怎么数据成了object？不应该是float吗？

不管他，硬转一发

df=pd.DataFrame(df,dtype=np.float)

居然报错了，1000被读成了字符串。

其实这里我还掉进了另一个坑，使用了一个已被弃用的 .convert_objects 方法。这种方法更硬，直接把string转成了NaN，所以后面各种操作流畅且错误地进行着….这都是 pandas 没升级的锅，定期检查升级包太有必要了（pip 的高阶玩法）

说回刚才的问题，1,000被读成了字符串是因为csv文件中它使用了千位分隔符。问题其实非常简单，设置一下 thousands 参数就行了

df2 = pd.read_csv(r'C:\...\income.csv',encoding='utf-8',thousands =',')

看一下info

df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   income  6 non-null      float64
dtypes: float64(1)

往下继续


df2.describe()

	    income
count	6.000000
mean	16934.983333
std	40695.203980
min	0.000000
25%	32.425000
50%	300.000000
75%	875.000000
max	100000.000000

一切正常!

pandas.read_csv()参数

pandas.read_csv()的参数特别多，除了filepath，其他均可缺省。参数的具体含义这里就不赘述，还想复习一下的同学可以直接去看官方文档

http://pandas.pydata.org/pandas-docs/stable/io.html

英语不好的同学可以看一下热心博主的翻译版：
https://www.cnblogs.com/datablog/p/6127000.html

版权声明：本文为jpld原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/jpld/p/14162305.html

被 Pandas read_csv 坑了的更多相关文章

Python数据分析(二): Pandas技巧 (2)
Pandas的第一部分: http://www.cnblogs.com/cgzl/p/7681974.html […]...
Pandas高级教程之:自定义选项
目录简介常用选项 get/set 选项经常使用的选项最大展示行数超出数据展示最大列的宽度显示精度 […]...
python的pandas读取excel文件中的数据
一、读取Excel文件使用pandas的read_excel()方法，可通过文件路径直接读取。注意到，在一个excel文件中有多个sheet，因此，对excel文件的读取实际上是读取指定文件、并同时指定sheet下的数据。可以一次读取一个...
数据分析之 pandas
pandas的拼接操作 pandas的拼接分为两种：级联：pd.concat, pd.append 合并 […]...
Python pandas 获取Excel重复记录
pip install pandas pip install xlrd 大量记录的时候，用EXCEL排序处理比 […]...
Pandas 基础(2) – Dataframe 基础
上一节我们已经对 Dataframe 的概念做了一个简单的介绍, 这一节将具体看下它的一些基本用法: 首先, […]...
新手数据比赛中数据处理方法小结（python）
第一次参加，天池大数据竞赛（血糖预测），初赛排名1%。因为自己对python不熟悉，所以记录一下在比赛中用到的 […]...
数据分析面试题之Pandas中的groupby
昨天晚上，笔者有幸参加了一场面试，有一个环节就是现场编程！题目如下：示例数据如下，求每名学生（ID） […]...

随机推荐

百万保险
百万保险　　众安保险：陷阱 http://xinwen.eastday.com/a/1806101126 […]...
Xcode 与 macOS 系统版本的兼容问题
6. Xcode 10.2 　　您使用的是 macOS 10.13.6。该应用程序要求 macOS 10.1 […]...
AWS认证权威考经（助理级认证篇）
笔者作为AWS官方认证的早期通过者，已经拿到了AWS的助理级解决方案架构师、开发者认证，系统管理员认证。这几年 […]...
基于RBAC的权限控制浅析（结合Spring Security）
嗯，昨天面试让讲我的项目，让我讲讲项目里权限控制那一块的，讲的很烂。所以整理一下。按照面试官的提问流程来 […]...
Redis服务器和客户端的通信
Redis客户端使用RESP（Redis序列化协议）与Redis服务器进行通信，RESP在位于TCP之上，而网 […]...
多线程高并发编程(2) — 可重入锁介绍和自定义
多线程高并发编程背景：　　什么是 “可重入”？可重入就是说某个线程已经获得某个锁，可以再次获取锁而不会出现 […]...
深入理解Three.js中正交摄像机OrthographicCamera
深入理解Three.js中正交摄像机OrthographicCamera 前言在深入理解Three.js中透 […]...
图解JanusGraph系列 – JanusGraph指标监控报警（Monitoring JanusGraph）
大家好，我是洋仔，JanusGraph图解系列文章，实时更新~ 图数据库文章总目录：整理所有图相关文章，请移 […]...

展开目录

目录导航