pandas学习笔记
ipython技巧
1、快速查看文档:np.random.randn?;在python中使用python查看:help(np.random.randn)
2、可以直接运行shell命令(pwd、cd等命令)
3、%timeit可以实时查看代码的运行效率
4、ipython notebook(web上的ipython):在web上进行探索性编程,内联图片显示(%matplotlib inline命令设置显示内联图片)
numpy简介
1、创建列表的方法:
np.array() 传入列表等参数 np.array([[1,2,3],[4,5,6]])
np.arange() np.arange(10)
np.zeros() 传入元组参数 创建零数组
np.ones() 传入元组参数 创建元素全为一的数组
np.eye() np.eye(3) 创建单位数组
2、数组的数学运算
数组可以进行四则运算,运算规则为对应元素相加;其中加法也可以调用np.add(x,y)实现、
np.sqrt():求平方根
x.T:矩阵x的转置
x.dot(y):矩阵x与矩阵y的内积(矩阵的乘积)
3、常用的函数
np.linspace(): np.linspace(1,10,num=100) # 将一到十平均分为100份
pandas快速入门
处理时间问题:
pd.date_range(\’20180101\’, period = 100, fre = \’s\’):以秒为单位生成长度为100的时间序列
df.resample(\’2Min\’, how = \’sum\’):以每两分钟求和的方式重新采样
pd.period_range(\’2000Q1\’, \’2018Q1\’, freq = \’Q\’):以一个季度为单位生成10年到18年的时间序列
to_timestamp():将时间序列转化成时间日期的格式
pd.Timestamp(\’20181020\’) – pd.Timestamp(\’20180920\’):时间运算
pd.Timestamp(\’20181020\’) + pd.Timedelta(days = 5):加上五天后的时间
category数据:
df = pd.DataFrame({\’id\’: [1, 2, 3, 4, 5, 6], raw_grade: [\’a\’, \’b\’, \’b\’, \’a\’, \’a\’, \’d\’]})
df[\’grade\’] = df.raw_grade.astype(\’category\’)
df.grade.cat.categories:查看类别
df.grade.cat.categories = [\’very good\’, \’good\’, \’bad\’]
pandas可以直接将数据可视化:s.plot()(s表示为Series结构类型数据)
数据的导入写出
df.to_csv(\’data.csv\’):将数据df导入到磁盘上data.csv文件
pd.read_csv(\’data_csv\’):将data.csv读取到ipython notebook当中