01 数据源
数据源
想要学习数据分析最根本的是先要有数据,不然都只是空谈。如果说你是在企业内做数据分析的话那肯定不用说了,因为公司有客户,有业务,肯定会产生大量的数据,但是仅仅是个人学习的话,我们要如何获取数据呢?
这个问题也正是好多数据分析初学者经常会遇到的问题。一些人可能会说,自己通过爬虫来爬啊,的确不错,爬虫也是我们获取数据的一个重要手段之一,但是这个方法对于初学者不是很友好,而且爬虫涉及的问题也比较多,所以说最好我们就直接拿到现有的数据就好了。毕竟我们的主要目的是分析而不是爬虫。
1、机器学习/数据挖掘
1.Kaggle
Kaggle是无数数据挖掘爱好者喜爱的竞赛平台,它的大标语是:your home for data science
。许多大公司与Kaggle合作,提供公开的数据源,并设立奖金,希望数据挖掘爱好者们通过竞赛的方式提供最优方案,解决实际问题。所提供的奖金丰厚,给予比赛最好成绩的前三名选手。
当然,大部分人参加竞赛并不是为了奖金而去,真实的目的是通过实战来提高自己的数据挖掘能力,在与世界各国的爱好者进行切磋的同时,开阔自己的眼界和视野,学习新知识。并且,这些大公司提供的数据源是非常有参考价值的,可以作为实战项目的首选,对求职者也是个很大的帮助。
2.天池
国内比较有名的数据挖掘平台了,它是一个数据科学家的社区,由阿里巴巴组织。赛事众多,有奖金支持,并云集了各路国内爱好者和高校研究者的参加。比赛设有初赛,复赛,决赛等关卡,有评委进行把关。平台同样也拥有大量免费的数据集供爱好者们使用。
3.数据城堡(DataCastle)
同样也是数据科学的竞赛平台,报名后获取任务数据集,也是一个非常好的学习网站。
4.SofaSofa
虽然竞赛人数和项目都一般,但是作为数据科学社区,提供免费的数据集。并可以在社区内进行技术交流和探讨。
2、各行业的数据网站
1.世界宏观经济数据
https://data.worldbank.org.cn/
关于世界宏观经济的两个网站,涵盖大量相关数据和学习资源。
2.国家统计局
数据来源于中国国家统计局,主要涉及我国经济民生等多个方面的数据,并在月度、季度、年度等多维度覆盖,较为全面和权威,对于社会科学的研究非常有帮助。
3.CEIC
http://www.ceicdata.com/zh-hans
拥有超过128个国家的经济数据,可以非常精确地查找到各国GDP, CPI, 进口,出口,外资直接投资,零售,销售,以及国际利率等数据。其中,“中国经济数据库”收编了300,000多条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。
4.万得(Wind)
万得有“中国Bloomberg”的称号,覆盖了全面的金融业数据,且类目更新非常快,受到很多商业分析者和投资人的亲睐。
5.搜数网
拥有海量的统计资料,数量高达7,874本,同时涵盖了1,761,009张统计表格和364,580,480个统计数据,汇集了中国资讯行自92年以来收集的所有统计和调查数据。
6.中国统计信息网
国家统计局官网,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等为辅助的多元化统计信息资料库,目前在线资料已达上万份。
7.figshare
一个研究成果共享的平台,来自世界的研究成果分享,同时有共享的研究数据。
8.OpenStreetMap
https://www.openstreetmap.org/
通过这个网站可以下载世界各地的地图数据
9.极海(geohey)
同样也是可以提供地图信息数据的网站;
10.Github
https://github.com/awesomedata/awesome-public-datasets
如果还嫌数据源不够,github上有位大神已经为大家整理好了一个非常全面的数据网站汇总,包含各个细分领域的数据资源(非常全)
3、补充:
1.国内公开数据:
不进入工作流的数据没有任何价值。
中国统计网:http://www.stats.gov.cn/ 统计数据、数据发布和解读、统计知识、统计学扫盲、信息公开、历史年度经济与社会发展公报。
国家数据:http://data.stats.gov.cn/ 可下载,在线可视化
大数据导航:http://hao.199it.com/
大数据123:http://dashuju123.com/ 大数据推荐网站和推文、大数据网站、大数据研究内容
中国民政部:http://www.mca.gov.cn/article/sj/ 健康、养老、卫生、社保等社会服务数据
巨潮咨询:http://www.cninfo.com.cn/cninfo-new/index 可以找到上市企业现金、资产、利润年度表、历史收盘行情等数据
中国互联网信息中心-CNNIC :http://www.cnnic.net.cn/ 可找到互联网行业报告,内有详细数据
百度指数:http://index.baidu.com/#/
微博数据中心:http://data.weibo.com/datacenter/recommendapp
2.国外公开数据
皮尤数据库:http://www.pewresearch.org/
BIS statistics https://link.zhihu.com/?target=http://www.bis.org/statistics/index.htm https://www.bis.org/statistics/index.htm
Tradingeconomics https://link.zhihu.com/?target=http://www.tradingeconomics.com/ https://tradingeconomics.com/
Federal Reserve Economic Data https://fred.stlouisfed.org/
WTO database http://stat.wto.org/StatisticalProgram/WSDBStatProgramHome.aspx?Language=E
Economy Watch http://www.economywatch.com/economic-statistics/#stats
NationMaster http://www.nationmaster.com/statistics
世界银行 https://data.worldbank.org/
哈佛世界地图计划 http://worldmap.harvard.edu/maps/79
IndexMundi https://www.indexmundi.com/china/