数据分析的基本思路和流程

  1. 了解业务--了解数据--确认业务和数据--预期分析和管理-数据分析方式
  1. 数据
  2. 1.测量标度类型
  3. 属性本源并不是数字或者符号,通过测量标度将数值或者符号和对象的属性建立关联。
  4. 属性的类型--测量尺度
  5. nominal 标称----等于或者不等于--------一对一的变换
  6. ordinal 序数---大于或者小于----------单调函数的变换
  7. interval 区间----加减------------------- 一次函数
  8. ratio 比率---- 乘除------------------- 比例函数
  9. 数据的大类:离散数据和连续数据-
  10. 数据的度量单位:分、元
  11. 举例
  12. 温度--华氏温度和摄氏温度
  13. 计数属性是离散的也是比率属性
  14. 2.有序数据--属性涉及时间或者空间的联系
  15. 截面数据--在相同或者近似相同的时间点上收集的数据
  16. 时序数据
  17. 时间序列数据
  18. 序列数据--考虑项的位置
  19. 空间数据
  20. 数据集
  21. 数据集的属性
  22. 维度
  23. 稀疏性
  24. 数据集的平衡性--非平衡数据
  25. 粒度--分辨率
  26. 时效性
  27. 相关性
  28. 训练集和测试集--为了评估模型的可靠性以及扩展性
  29. 数据集的表示--数据格式
  30. 数据矩阵
  31. 购物篮数据
  32. 数据背景
  33. 数据分析和判断,其中对数据背景的了解是必不可少的
  1. 数据的安全性
  2. 数据的保密:权限以及抵抗力
  3. 数据的恢复:冗余-备份-容灾
  4. 数据的追溯:可追溯
  5. 数据来源--
  6. 数据过程可重复
  7. 数据的可用性
  8. 数据质量问题
  9. 完整,全面,一致,准确,可解释-可靠性
  10. 现象--原因---解决方式
  11. 异常值--缺失值--重复值--不一致值--噪声--遗漏值
  12. 数据质量的检测和纠正
  13. 数据算法的容忍度
  14. 数据的复用性
  15. 数据格式--数据是给人看的,同时也是给机器看的--文件格式与编码
  16. 通过一定的数据格式--自解释数据格式 例如:JSONXML
  17. 数据架构可用性
  18. 架构的可扩展性
  19. 数据的流动
  20. 异构数据源流向统一的目标数据--数据的ETL
  21. 采集误差--转换规则
  22. 数据陷阱
  23. 沉默数据缺失
  24. 数据的成本和时效
  25. 数据过拟合--评估模型的可靠性--分为训练集和测试集
  26. 数据造假
  27. 案例-
  28. 孙膑 减灶诱敌
  29. 诸葛亮 增灶退兵
  1. 确认场景 确认数据 是什么?
  2. 探索原因,需找因素 为什么
  3. 解决思路和方式 怎么办
  1. 技术流派
  1. 从数据结果上
  2. 1、检索结果中的数据格式检验,从开发角度来说是了解数据类型,字段等的准确性
  3. 2、检索结果中的数据量是否符合检索条件,判断数据量的准确性。数据的分布,极值和均值等
  4. 3. 样本数据检测,通过不同的数据进行相互验证,判断数据中数值的正确性,
  5. 4. 历史数据检测,进行数据合理性判断
  6. 常规内容
  7. 了解常见的错误类型
  8. 记录特殊的错误类型
  9. 规范的数据操作方式

参考

版权声明:本文为ytwang原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/ytwang/p/13859664.html