安徽新华学院2015届本科毕业论文(设计)
决策树是一个预测模型,是对象属性与对象值之间的一种映射关系。树中每个节点代表着某个对象,而每个分叉路径则表示某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出[8] (3)遗传算法
遗传算法是一种空间搜索方法,遗传算法的搜索方向是由算法的适应函数来决定的,用拟生物化的人工运算过程进行一代一代的周而复始的演化,最终得出一个最佳结果。遗传算法的特点是具有求值空间的独立性与强固形。强固形使问题的限制条件降到最低,并可以大幅度的提高系统的容错能力;而求值空间的独立性则使遗传算法的设计比较简单,且适用于不同领域不同性质的问题。遗传算法在数据挖掘中的应用,可以挖掘出与众不同的信息,是别的算法所不能替代的
[9]
。
(4)粗糙集
粗糙集算法将知识理解为对数据的划分,每一被划分的集合被称为概念,主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来近似刻画处理粗糙集理论,是继模糊集、证据理论、概率论之后的又一个可以处理不确定性的数学工具。作为一种较新的算法,粗糙集近年来越来越受到重视,其有效性已在诸多的领域的成功应用得到了证实,是当前国际上人工智能理论及其应用领域中的研究热点之一。
2.4数据挖掘的功能
数据挖掘的功能是从大型数据集中提取人们感兴趣的知识,这些知识是隐含的、具有一定可信度的、对用户而言是新颖的且有潜在价值的知识,提取的知识表示为概念、规则、模式等多种形式[9]。
一般情况下,数据挖掘的任务可以大体分为两类:描述和预测。描述性挖掘任务描述数据库中数据的一般性质,而预测性挖掘任务是指对当前数据进行处理、分析和推断,以做出相应的预测。
数据挖掘在实际的工作中,有时候用户并不清楚自己需要什么样的数据,因此数据挖掘工作有必要挖掘出多种类型的模式,以达到满足不同的用户需求和应
7
安徽新华学院2015届本科毕业论文(设计)
用。
一般情况下,数据挖掘的功能以及可能发现的模式类型如下: (1)分类
分类的目的是构造一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,?,vn;c),其中vi表示字段值,c表示类别。
例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。 (2)关联分析
关联分析就是从大量的数据中发现项集之间有趣的关联或因果结构。 关联分析展示了属性与值频繁的在给定的数据集中的一起出现的条件。一般如下形式:
如X?Y,即“|A1 ?..........An ?B1???.Bn”的规则。其中,Ai? (i{1,?..m}) ,Bj? (j{1,?..n})是属性—值对。关联规则X?Y即表示::“满足X中条件的数据库元组多半也满足Y中的条件”。
简而言之,就是分析两个事物之间的一些特性,通过一个事物去预测另外一个事物,这就是关联分析。 (3)概念/类描述
概念描述(concept description)就是通过对与某类对象关联数据的汇总、分析和比较,对此类对象的内涵进行描述,并概括这类对象的有关特征。 这种描述是汇总的、简洁的和精确的知识。 (4)离群点分析
在数据库中有时会包含一些数据对象,它们与数据的模型或一般行为不一致。这些数据对象是离群点(outlier)。大部分数据挖掘方法将离群点视为噪声或异常丢弃。然而,在一些应用中,稀奇的事件可能比正常的事件更令人关注。 (5) 演变分析
8
安徽新华学院2015届本科毕业论文(设计)
数据演变分析描述行为随时间变化的对象的规律,并对其进行建模。尽管这可能包括时间相关数据的区分、特征化、关联和相关分析、预测、分类或聚类,这类分析的不同特点包括序列或周期模式匹配、时间序列数据分析和基于相似性的数据分析。
2.5本章小结
本章在介绍数据挖掘基本概念的基础上,简要的概括了数据挖掘的过程、数据挖掘的方法、数据挖掘的功能,并简要介绍了几个数据挖掘应用的成功案例。这些基本理论知识为数据挖掘的实践应用研究奠定了理论基础。
9
安徽新华学院2015届本科毕业论文(设计)
3 决策树技术
3.1决策树简介
随着社会的发展,数据挖掘显的尤为的重要。在数据挖掘中决策树算法是目前数据挖掘领域中应用的最广泛、最流行的推理算法之一。决策树分类算法是将数据分类、预测和规格的提取。随着ID3算法和C4.5算法的提出,决策树技术在数据挖掘领域得到了进一步的拓展,并且在人们生产生活中得到了广泛应用。 决策树是一种根据自变量的值进行递归划分以及预测因变量的方法
[10]
。决策
树的主要作用是揭示数据中的结构化信息。它提供一种在什么条件下会得到什么值的类似规则的方法。若因变量为分类变量,我们称相应的决策树为分类树;若因变量为连续变量,我们称相应的决策树为回归树。分类树对离散变量做决策树,回归树对连续变量做决策树。一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数(最小结点的大小,最大树的深度等等),来限制决策树的。决策树作为一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于一类别的记录。图3.1为以典型的决策树。
10

