文章目录
  1. 1. 定义
  2. 2. 流程
  3. 3. 参考文献

定义

CRISP-DM是Cross-Industry Standard Process for Data Mining的缩写,也就是数据挖掘的跨行业标准流程,是一个已被业界证明的有效指南。它作为:

  1. 一种方法论: 包含了对数据挖掘项目的六个典型阶段,以及每个阶段所包含的任务,并且解释了这些任务之间的关系。
  2. 一种流程模型: CRISP-DM提供了对数据挖掘生命周期的一个概览。这个生命周期模型包含了六个阶段,模型里的箭头指明了各阶段间最重要和频繁的依赖项。这些阶段的次序并非是严格的,事实上,大多数项目在需要的时候,会在各阶段之间来回反复。

流程

CRISP-DM 模型是数据挖掘最常用的标准流程,它为一个知识发现工程提供了一个完整的过程描述。该模型将一个知识发现工程分为6个不同的、但顺序并非完全不变的阶段,如下图所示。
[数据挖掘]数据挖掘的标准流程:CRISP-DM模型

数据挖掘的标准流程:CRISP-DM模型

1. 业务理解 (Business Understanding)
最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。
可能包含以下几个步骤:场景,利弊,目标,计划
1. 数据理解 (Data Understanding)
数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。
可能包含以下几个步骤:数据初始化信息收集,数据描述(表结构、表属性及其注释),数据探索,数据质量
1. 数据准备 (Data Preparation)
数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。
可能包含以下几个步骤:数据集描述,数据筛选,数据清洗,数据构造(转换? 衍生属性,记录生成),数据融合,数据格式化
1. 建模(Modeling)
在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。
可能包含以下几个步骤:模型选择,测试设计,模型参数设置(调参),模型评估
1. 评估(Evaluation)
到项目的这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。
可能包含以下几个步骤:评估结果,模型提升,决策
1. 部署 (Deployment)
通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担部署的工作。
可能包含以下几个步骤:部署计划,监控及维护,产生最终的报告,review报告
来源: http://blog.sina.com.cn/s/blog_5d60f0650101l4sl.html

目前的CRISP-DM版本是v1.0版(1999年),v2.0还在研究中。

尽管CRISP-DM v1.0包含了一些图示,但整体上看还是比较抽象和复杂的。所以,下面我又提供另一种模型,来对CRISP-DM v1.0的六阶段进行分解,以更清晰展示,理解和实施。
CRISP-DM v1.0

参考文献

  1. crisp-dm 1.0 - The Modeling Agency
  2. 数据挖掘的标准流程:CRISP-DM模型
  3. CRISP-DM 1.0 循序渐进数据挖掘指南
  4. CRISP-DM数据挖掘项目流程
文章目录
  1. 1. 定义
  2. 2. 流程
  3. 3. 参考文献