这些年,在数据挖掘项目中踩的“坑”
这些年,在数据挖掘项目中踩的“坑”
数据挖掘项目是一个涉及的环节也比较多,而且高度依赖数据的项目。所以在其中一个过程中遇到点坑,简直太正常不过了。
需求不明确是第一大坑。需求不明确会把后面的分析方向完全带沟沟里面去,也容易被迫接受一些不可能完成的挖掘目标和商业目标。不过这种一般只会发生在一个公司刚开始有这个岗位的时候,随着项目的增加,后面大家普遍就知道数据挖掘的极限了,也知道数据挖掘任务所存在的风险了,便不会提出不可能完成的目标了。说一个曾经被带沟沟里去的需求。有一次接到领导说做一个需求,要找出影响用户忠诚度的关键因子,然后我吭哧吭哧的提取数要求,等数据,写分析报告,确认了几个关键因子,然后去见客户才发现人家提的是影响高端用户粘性的因子。范围都不对,大受打击。此处避坑方式,可以去接触一线客户的时候,不要退缩,一定要了解他们的真实想法,不要被口口相传后带歪了,然后白干了。
数据本身质量问题是第二大坑。大部分生产系统收集的数据都不是专门为做挖掘而做的,基本都是为直接盈利而存在的,所以也就只有直接影响到市场营销的指标最可靠。别的辅助指标,只能说质量实在一般。我们提出的上百个指标,真正能用的有20来个就不错了。除了数据在记录的时候可能发生的错误问题,还可能是数据精度/偏倚和准确率,数据不一致,数据遗漏,数据离群点,数据重复等问题。没别的避坑方式,只能是尽可能多的了解系统的基础数据,搜集各方信息,在想法设法的提高数据质量的基础上发散思维生成更多分析维度,然后尽人事知天命!
取数过程中发生的数据问题是第三大坑。尤其记得刚毕业那年,还是个小透明的时候。有一次做一个甲方的挖掘项目,因为第二天要交付(取数周期长耽误了工期),一伙人拿着乱七八糟的数据分析到凌晨3点,结果发现一个关键ID都弄错了,导致全部数据都没法用。那种想死的心情,那种想杀人的心情。也给我们一个血的教训,千万不要因为信任某个人或者项目时间紧而放弃认真检查数据。数据有问题就只能打回去重整,就算是时间紧也没办法。不过话说回来,本来从各个数据仓库取数就是个又杂又累的苦活,好一点的取数人员只是犯的傻逼错误少一些。有些逻辑上考虑不全是正常的。而且他们对于数据的指标含义什么的,不像我们这么敏感,他们也是要在短时间内完成任务。所以此处的避坑方式其实也很简单,那就是检查数据!检查数据!检查数据!!!
如果说前面的三大坑还算是可以填满的,那么接下来要说的超级大坑靠我们普通小辈基本填不满的。那就是能否得到实权人物的支持。说到底,数据挖掘到现在为止,还只是个锦上添花的事业。对于广大身处各种生产问题无法自拔的一线人员和实权领导,是不会有时间和精力来做这些锦上添花的事情的。因此项目经常因为这样或那样的问题延期或者拒绝上线。总的来说,数据挖掘的理论和技术都发展的比较成熟了。但是受现阶段采集数据和系统建设的影响,要真正达到高级应用阶段还有一段距离。现在更多的是停留在数据分析和数据可视化阶段。
做项目就是这样,克服困难完成任务才是重点。处理问题才能体现我们的价值嘛。如果项目顺利什么问题都没有不就变成了搞科研了吗?