【数据可视化】一、分析历年电影票房（数据读取、过滤、分类、绘图）

-Ashe 2021-12-14 原文

本次案例主要用到numpy,pandas和matplotlib。期中pandas中的groupby分组方法较为重要，matplotlib中可以对画图进行更详细的设置，比如设置x、y轴刻度、折线宽度和样式以及颜色等等。

如图部分所示，这是一个关于对历年电影的数据，期中包括电影名称，年份、导演、票房收入等等。

（1）读取文件、处理缺省值

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import matplotlib
 #读取数据
data = pd.read_csv(\'movie_metadata.csv\')
print(data.head())#读取数据前五行
print(data.shape)#打印数据的形状
效果如图所示，可以看到第4行有出现一些空值，这对我们做分局分析是不利的，接下来还需对数据中的空值做处理，清洗。：

#处理缺省值,把一些空值进行滤除
data = data.dropna(how = \'any\')
print(data.head())

（2）统计、分组

#查看票房收入统计
group_director= data.groupby(\'director_name\')[\'gross\'].sum()#根据director_name进行分组，然后求gross列的和

#print(group_director.head())

#排列
result = group_director.sort_values(ascending=False)#按照降序方法进行排列
print(result)
#sort_values函数参数使用：
#ascending    是否按指定列的数组升序排列，默认为True，即升序排列
#inplace    是否用排序后的数据集替换原来的数据，默认为False，即不替换

效果如下，途中可以看出票房收入最高的是“Steven Spielberg（史蒂文·斯皮尔伯格）”，总的票房输入是4.114233e+09。

（3）

#电影产量年份图
movie_year = data.groupby(\'title_year\')[\'movie_title\'].count() #计算每年的电影产量
#print(movie_year.index.tolist())
#print(movie_year.values.tolist())

#为x、y坐标赋值
x = (movie_year.index.tolist()) #把index索引值拿出来作为x轴，也就是年份，以列表形式输出。
y = movie_year.values.tolist()#把values值作为y轴，也就是每年的电影量的和。

#设置画布格式
#plt.xticks(range(len(x),10))
plt.figure(figsize=(20,8),dpi = 80) #设置画布大小为20，8，分析率为80.
my_font=matplotlib.font_manager.FontProperties(fname=r\'C:\Windows\Fonts\simsun.ttc\',size = 18)#设置字体

#设置坐标轴标签
plt.xlabel(\'时间\',fontproperties = my_font) #设置x轴标签
plt.ylabel(\'电影量\',fontproperties = my_font)#设置y轴标签
plt.title(\'电影产量年份图\',fontproperties = my_font,color = \'red\')#设置标题名称
#绘制折线图
plt.plot(x,y)
plt.show()

具体效果如下，

转载于https://blog.csdn.net/sl01224318/article/details/102244890?utm_medium=distribute.pc_relevant.none-task-blog-baidujs-4

版权声明：本文为-Ashe原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/-Ashe/p/13080132.html

【数据可视化】一、分析历年电影票房（数据读取、过滤、分类、绘图）的更多相关文章

对中文商品评论进行二分类（判别好评差评）
本文是对中文商品评论的二分类的简单实现，主要功能是判别评论信息的好坏（即判断是好评还是差评），调用了gensi […]...
机器学习算法原理解析 – 分类
常见分类模型与算法距离判别法，即最近邻算法KNN；贝叶斯分类器；线性判别法，即逻辑回归算法；决策树； […]...
JQuery表单过滤选择器和JQuery_DOM内容操作
JQuery表单过滤选择器1. 可用元素选择器　　　　语法： :enabled 获得可用元素　　2. 不可用元素选择器　　　　语法： :disabled 获得不可用元素　　3. 选中选择器　　　　语法： :chec...
李宏毅机器学习课程笔记-4.1分类简介及其与回归的区别
目录分类模型应用案例（Classification Cases）把分类当成回归去做？理想替代方案（Ide […]...
机器学习常用考核指标总结
机器学习常用考核指标总结阅读目录 1. TPR、FPR&TNR 2. 精确率Precision、召回 […]...
Spring MVC 原理
Spring MVC 原理一、什么是springmvc 　　springMVC是spring框架的一个模块， […]...
监督学习——决策树理论与实践（下）：回归决策树（CART）
介绍决策树分为分类决策树和回归决策树：上一篇介绍了分类决策树以及Python实现分类决策树：监督学习—— […]...
SpringCloud-Gateway 网关路由、断言、过滤
Gateway 简介是什么？ Spring Cloud 全家桶中有个很重要的组件：网关。在 1.x 版本中使 […]...

随机推荐

输出简历及会员卡号问题
一、输出个人简历完整代码： package Demo; public class Demo1 { pu […]...
自学Aruba6.1-基本网络参数配置（web页面配置）
自学Aruba6.1-基本网络参数配置（web页面配置）点击返回：自学Aruba之路自学Aruba6.1- […]...
深入理解 EF Core：使用查询过滤器实现数据软删除
原文：https://bit.ly/2Cy3J5f 作者：Jon P Smith 翻译：王亮声明：我翻译技术 […]...
JAVAWEB之增删改查
青年志愿者服务网（20分） 1、项目需求：为了适应社会主义市场经济发展的需要，推动青年志愿服务体系和多层 […]...
我的第一个python web 开发框架
1：数据库结构设计与创建小白做好前端html设计后，马上开始进入数据库结构设计步骤。　　　　在开始之前， […]...
独享还是共享，你选择哪一种锁？
之前在的文章中已经写了公平锁和非公平锁了，接下来就该介绍第二种锁了，他就是共享锁和独享锁，顾名思义，独享， […]...
在django中如何从零开始搭建一个mock服务
mock概念 mock 就是模拟接口返回的一系列数据，用自定义的数据替换接口实际需要返回的数据，通过自定义的数 […]...
【MySQL】MySQL中的锁机制
锁是计算机用以协调多个进程间并发访问同一共享资源的一种机制。MySQL中为了保证数据访问的一致性与有效性等功能 […]...

展开目录

目录导航