处在大数据时代,好的数据公司不只有提供数据分析这一项单一服务业务,一套完整流畅且相得益彰得数据建模是核心。数据建模是一个很严谨的工作,也很消耗资源,从公司的角度来说,没有落地应用的模型,是无法转化为业绩的。一般来说,数据建模全流程设计一般可以概括为:业务理解、数据理解、数据准备、模型搭建、模型评估和模型发布六个阶段。本篇主要简述前三种。
一、业务理解
首先,对业务的了解一定是重中之重,这是大前提。无论在什么工作中,对业务需求进行全面的理解是一项基础能力。而在数据建模的过程中,一开始对业务需求进行正确的理解,并将其转换成分析需求,这将极大地提升模型的精度和效率。一般在重点分析了业务逻辑,需求的合理性,需求的可行性等问题后需要抓解商业需求得本质。在确认了需要之后,根据需要,制订了有目标的分析框架及项目进度安排。
二、数据理解
此阶段的工作是通过“提数”找出问题所在,找出内在的规律。参数是建立数据模型之前的首要步骤,如果原始数据本身就是错误的,后果不堪设想。正确的做法是:
对公司的业务有充分的了解,在需要的时候必须跨部门进行深层次的交流;数据具有一定的时间限制,需要考虑所提取的数据与当前的商业需要相匹配。在数据仓库中,不能随意抽取,不能保证数据来源的正确性和一致性。在完成了提数之后,一定要多做一些核对。
三、数据准备
该阶段主要任务是数据抽样、数据清洗、重组、转换及衍生等,也就是建模老生常谈的数据预处理。常用方法有:抽样和规模分析。前者一来为了降低源数据全集过大带来的资源消耗,二来人为增加在样本中的占比;后者重点是考量目标变量所对应的目标事件的数量。
虽然数据建模全流程设计框架大体上一致,但好的模型出奇制胜的关键,重点还是要对业务足够熟悉。