大数据的研究方法及可能应用—王磊

2026/1/19 23:00:46

我们也应了解数据格式和数据类型,了解数据的获取方式和异常数据的存在。

③数据准备:

在对数据进行分析之前,首先需要将数据汇集到一起,形成数据库。但是,在汇总数据时,多余数据以及数据格式与含义不一致的现象十分普遍。于是,将这些存在于不同环境中的或者存在于相对封闭的系统中的数据有机的结合在一起,实现数据资源的共享就是数据准备阶段的关键环节和主要任务。

用于数据准备的技术称为ETL技术,“ETL”是英文Extract,Transform和Load三个单词首字母的缩写,分别表示抽取、转换和装载三方面的数据处理技术。数据抽取就是将数据按照数据挖掘的项目主题从各种原始的数据系统中读取出来,这是数据挖掘所有工作的前提。然后进行数据转换,根据预先设计好的规则将数据进行转换,使得不同结构和格式的数据统一起来。最后是进行数据装载,将完成转换的数据导入到数据库中,完成数据整合的过程。

当然,汇集数据需要用到很多数据技术。对于复杂的数据格式,还需要利用编程语言的强大功能来实现数据的集成,也可以使用一些工具软件,例如SAS,SPSS,Ab Initio和PERL工具。

④建立模型:

数据建模是数据挖掘流程中最核心的环节,使用机器学习算法或统计方法对大量的数据进行建模分析,从而获得对数据系统最合适的模型。建立模型是一个反复的实验过程,需要仔细考察不同的模型和数据,以确定与待解决的问题最适合的数据模型。

⑤模型评价:

数据挖掘的模型评价包括功能性评价和服务性评价两方面的内容。其中,功能性评价是指建立的模型对任务完成的质量,常见的有精准性评价和稳定性评价。精准性评价主要衡量模型估计的准确性,而稳健性评价是对模型的抗干扰性和适应性进行评测。功能性评价中常用的两种方法是增益图法和ROC曲线法。除了技术性能的评价,服务的因素也不

容忽视。

⑥部署应用:

数据模型建立并且经过验证之后,有两种主要的途径。第一种用途是提供给分析人员做参考,通过察看和分析这个模型之后提出行动方案建议。第二种用途是将此模型应用到不同的数据集合上。

2、贝叶斯分类

贝叶斯分类(Bayes Classification)是统计学中的分类方法,其分析方法的特点是使用概率来表示所有形式的不确定性,学习和推理都要通过概率规则实现,[14] 即利用概率统计知识进行分类。贝叶斯分类在机器学习领域中具有十分重要的地位,在处理数据时它的作用也是十分强大的。

在贝叶斯分类中,数据分类的问题转化为了分布的决策问题。贝叶斯分类也为分布的决策提供了两种产生分布函数的方法。第一种是分布估计法,即根据损失函数、先验分布和似然函数,通过后验分布,由最优决策产生分类函数。在样本连续和数据维度不高的情况下,正态分布下的线性判别和二次判别等方法是两个十分典型的方法。第二种是条件依赖关系估计法,针对数据变量是离散的而且维数较高的情况。如果变量之间存在少量的条件依赖关系,则利用条件依赖关系估计法进行分析可以获得高质量的估计结果,这种方法还可以用于分析变量之间的逻辑依赖关系。上面所说的两种方法或可称为朴素贝叶斯方法和贝叶斯网络方法。[15]

3、图模型

图模型(Graphic Models)用于刻画复杂数据系统中多个变量或不同的观测数据之间地关系,是提取高维数据的结构信息的重要工具。图模型的基本思想是通过揭示高维随机变量的相互依存关系刻画变量之间的条件独立性。在统计学中,图模型实质上就是用节点表示随机变量和用

[16]

弧表示条件独立假设的图。目前,图模型发展较快的主要有两个分支,

一个是基于似然函数的惩罚算法,另一类是基于回归技术的算法。

1)、Graphical LASSO算法

Graphical LASSO算法是弗里德曼(Friedman)于2007年提出的,是在似然函数上增加惩罚算法进行图模型估计的方法。这种算法使用最速下降的方法,速度较快。

2)、MB算法

MB算法是一种典型的回归算法。这种算法将图模型视为是由每个顶点对其他顶点做邻域选择时所产生的链接图的叠加。于是,在MB算法中,每个顶点所占的比例相同,保证了各个顶点可以选择相同数量的与之连通的边。MB算法实质上是从每个顶点最低链接需要的角度描述图的一种方式。

3)、SPACE算法

SPACE算法是另一种典型的回归算法。该算法将稀疏图看成是对顶点实施不等权重影响导致的相对组合的一般形式。而其中的权重由一个顶点的辐射强度在所有顶点辐射强度分布中的位置决定,一个顶点的辐射强度是该顶点对其他顶点的偏相关系数之和,而辐射强度分布是所有顶点辐射强度的分布。如果一个顶点的辐射强度较大,则该顶点分配较大的权重,进一步可允许该顶点选择更多边与之连通。反之,如果一个的辐射强度较小,则该顶点分配较小的权重,并限制该顶点选择与更多边连通。

三、大数据的可能应用举例

1、客户关系管理

1)、协同推荐模型

伴随着互联网和电子商务的发展,数据及信息的体量已经远远超出人们的处理能力。及时为客户过滤不必要的项目是实现异构管理,有效利用网络数据资源,提升整体数据处理性能的重要措施。推荐系统就是一门专门面向客户的网络数据过滤技术,并向客户推荐适合的项目。系

统的核心就是推荐算法,主要有以下三种:

① 人口统计学的推荐(Demographic-based Recommendation) 即根据系统客户的基本信息发现客户的相关程度。具体方法是对所有客户建立人口统计学(性别、年龄、职业等)的数据档案。例如寻找与甲客户的人口统计学特征相似的乙客户,由于甲、乙客户具有相同的人口统计学的特征,而认为甲、乙客户具有较高的关联度。于是,可将乙客户偏好的项目推荐给甲客户。这类推荐算法的优点是适用于冷启动问题,不足是推荐的精准度不高,因为仅仅在人口统计学的特征上给出推荐,而人口统计学的资料很难体现客户在项目需求上的差异。

② 基于内容的推荐(Content-based Recommendation)

即根据所推荐项目的元数据,发现项目或者数据内容的相关性。例如甲项目的类型是“户外用品”,乙项目的类型也是“户外用品”,这两种项目具有相似性。如果某客户对甲项目产生兴趣,那么系统就会对其推荐乙项目。这种推荐算法需要对项目内的数据进行分析和建模,推荐的质量依赖于对项目描述的完整程度。一般应用中观察到的关键词和标签是描述项目元数据的简单而有效的方法。不足之处在于项目相似度的分析仅仅取决于项目本身的特征,未涉及客户个体差异对项目的态度。

③ 协同过滤的推荐(Collaborative Filtering Recommendation) 与传统的人口统计学和基于内容的过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似兴趣用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。协同过滤主要解决了传统算法在数据的稀缺性和项目数量较多的情况下的推荐项目问题。协同过滤推荐系统处理的数据问题包含两方面的变量——用户和选择条目,推荐的目标是预测用户对某些位置条目的评价。1992年,戈德堡(Goldberg)实现了第一个协同过滤推荐系统,戈德堡利用办公伙伴等与被推荐人有密切生活接触的人进行相似性推荐。现在,协同过滤推荐在信息过滤和电子商务行业得到了广泛应用,包括推荐书籍、酒店、电影、商业网站等。例如AMAZON网上书店提供非常先进的个性化推荐功能,能为不同兴趣爱好的用户自动推荐


大数据的研究方法及可能应用—王磊.doc 将本文的Word文档下载到电脑
搜索更多关于: 大数据的研究方法及可能应用—王磊 的文档
相关推荐
相关阅读
× 游客快捷下载通道(下载后可以自由复制和排版)

下载本文档需要支付 10

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219