数据挖掘导论笔记

数据挖掘导论笔记

通常,数据挖掘任务分为下面两大类。

  • 预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。 被预测的属性一般称目标变置(targetvariable)或因变量(dependemvariable), 而用来做预测的属性称说明变量(explanatoryvariable)或自变置(independentvariable)。
  • 描述任务。其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。 本质上,描述性数据挖掘任务通常是探査性的,并且常常需要后处理技术验证和解释结果。

    • 预测建模(predictivemodeling)涉及以说明变里函数的方式为目标变®建立模甩。 有两类预测建模任务: 分类(classification),用于预测离散的目标变量: 回归(regression),用于预测连续的B标变®。 例如,预测一个Web用户是否会在网上书店买书是分类任务,因为该目标变墩是二值的,而预测某股票的未来价格则是回归任务,因为价格具有连续值属性。 两项任务目标都是训练一个模型,使目标变M预测值4实际值之间的误差达到最小。 预测建模可以用来确定顾客对产品促销活动的反应,预测地球生态系统的扰动,或根据检査结果判断病人是否患有某种疾病。
    • 关联分析(associationanalysis)用來发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的5标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具龟相关功能的基因组、识别用户一起访问的Web页ifii、理解地球气候系统不同元素之间的联系等。
    • 聚类分析(clusteranalysis)B在发现紧密相关的观测值组群,使得与属于不同族的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组、找出显著影响地球气候的海洋K域以及压缩数据等。

      • 异常检测(anomalydetection)的任务是识别其特征M著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。换言之,一个好的异常检测器必须具有商检测率和低误报卒1异常检测的应用包括检测欺诈、M络攻击、疾病的不寻常模式、生态系统扰动等。

本书的内容与组织

我们从数据(第2章)开始本书的技术讨论。该章讨论数据的基本类型、数据质进、预处理技术以及相似性和相异性度量。这些材料尽管可以快速阅读,但它却是数据分析的重要基础。

第3章论及数据探査,讨论汇总统计、可视化技术和联机分析处理(On-LineAnalyticalProcessing,OLAP),这些技术可用来快速透彻理解数据集。

第4章和第5窣涵盖分类。第4章是基础,讨论决策树分类和一些重要的分类问题:过分拟合、性能评估和不同分类模型的比较。 在此基础上,第5章介绍其他重要的分类技术:基于规则的系统、最近邻分类器、贝叶斯分类器、人工神经网络、支持向最机以及组合分类器。组合分类器是一组分类器。这一章还讨论多类问题和不平衡类问题。这些題可以彼此独立地学

关联分析 在第6章和第7章考察。第6章介绍关联分析的基础—频繁项集、关联规则以及产生它们的一些算法。特殊类型频繁项集(极大项集、闭项集和超团集)对于数据挖掘都是重要的,也在这一章讨论。该章最后讨论关联分析的评估度量。 第7章考虑各种更高级的专题,包括如何将关联分析用于分类数据和连续数据,或用f具存概念分层的数据。(概念分层是对象的层次分类,例如库存商品一服装一鞋一运动鞋。)该章还介绍如何扩展关联分析,以发现序列模式(涉及次序的模式)、图中的模式、负联系(如果一个项出现,则其他项不出现)。

聚类分析 在第8章和第9章讨论。第8章先介绍不同类型的族,然后给出三种特定的聚类技术:K均值、凝聚层次聚类和DBSCAN。接下去讨论验证聚类算法结果的技术。更多的聚类概念和技术在第9章考察,包括模糊和概率聚类、自组织映射(SOM)、基于图的聚类和基于密度的聚类。这一韋还讨论吋伸缩问题和选择聚类算法®要考虑的因素。

JS后一章(第10章)是关于异常检测的。在给出一些基本定义之后,介绍了若干类型的异常检测,包括统计的、基于距离的、基于密度的和基f聚类的。

第二章 属性的不同类型

一种指定属性类甩的行用(和简单)的办法是,确定对应于属件基本性质的数值的性质。例如,长度的w性可以有数值的许多性成。按照长度比较对象,确定对象的排序,以及谈论长度的差和比例都是行意义的。数值的如下性质(操作)常常用来描述城性。

1.相异性=和不等于[邮政编码、雇员ID号、眼球颜色、性别]{众数、墒、列联相关、y检验} 2.序<>[矿石硬度好,较好,成绩,街道号码]{中值、西分位、秩相关、游程检验、符号检验} 3.加法+和-[日历日期、摄氏或华氏壤度]{均值、标准差、皮尔逊相关、f和F检验} 4.乘法*和/[绝对温度、货币、计数、年龄、质量,长度、电流]{几何平均、调和平均、百分比变差}

给定这些性质,我们可以定义四种属性类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)

数据集的一般特性

在提供特定类型数据集的细节之前,我们先讨论适用于许多数据集的三个特性,它们对数据挖掘技术具有重要影响,它们是维度、稀疏性和分辨宇-。

维度 (dimensionality)数据集的维度是数据集中的对象具有的域性数目。低维度数据往往与中、高维度数据有质的不同。确实,分析岛维数据有时会陷入所谓维灾难(curseofdimensionality)。正因为如此,数据预处理的一个重要动机就是减少维度,称为维归约(dimensionalityreduction)。这些问题在本章的后面会更深入地讨论。

稀疏性 (sparsity)冇些数据集,如具有非对称特征的数据集,一个对象的大部分属性上的值都为0;在许多情况下,非零项还不到1%。实际上,稀疏性是一个优点,因为只有非零值才需要存储和处理。这将作劣大最的计算时间和存储空间。此外,有些数据挖掘算法仅适合处理稀疏数据。

分辨率(resolution)常常可以在不同的分辨韦下得到数据,并且在不同的分辨率下数据的性质也不同。例如,在几米的分辨率下,地球表面看上去很不平坦,但在数十公里的分辨率下却相对平坦

记录数据

事务数据或购物篮数据事务数据(transactiondata)是一种特殊类型的记录数据,其中每个记录(事务)涉及-•系列的项。考虑一个杂货店。顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品是项。这种类型的数据称作购物篮数据(marketbasketdata),因为记录中的项是顾客“购物篮”中的商品。事务数据是项的集合的集族,但是也能将它视为记录的集合,其中记录的字段是非对称的属性。这些属性常常是二元的,指出商品是否己买。更-般地,这些属性还可以是离散的或连续的,例如表示购买的商品数量或购买商品的花费。图2-2b展示了一个事务数据集,每一行代表一位顾客在特定时间购买的商品。

数据矩阵 如果一个数据集族中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间中的点(向最),其中每个维代表对象的一个不同属性。这样的数据对象集可以用一的矩阵表示,其中m行,一个对象一行;n列,一个属性一列。(也可以将数据对象用列表示,域性用行表示。)这种矩阵称作数据矩阵(datamatrix)或模式矩阵(patternmatrix)。 数据矩阵是记录数据的变体,但是,由于它由数值域性组成,可以使用标准的矩阵操作对数据进行变换和处理,因此,对于大部分统计数据,数据矩阵是一种标准的数据格式•图2-2c示出一 个样本数据矩阵。

稀疏数据矩阵 稀疏数据矩阵是数据矩阵的•种特殊情况,其中W性的类_相同并且是非对称的,即只有非零值才是重要的。事务数据是仅含0-1元素的稀疏数据矩阵的例子。另一个常见的例子是文档数据。特别地,如果忽略文档中词(术语)的次序,则文档可以用词向最表示,其中每个词是向®的一个分量(属性),而每个分墩的值是对应词在文朽中出现的次数。文档集合的这种表示通常称作文档-词矩阵(document-termmatrix)。阁2-2d显示了一个文档-词矩阵。文挡是该矩阵的行,而词是矩阵的列。实践应用时,仅存放稀疏数据矩阵的非零项。

基于图形的数据

带有对象之间联系的数据

有序数据

时序数据 序列数据 时间序列时间自相关 空间数据空间自相关性

维归约

数据集可能包含大最特征。考虑一个文档的集合,其中每个文档是一个向M,其分ft是文档中出现的每个词的频率。在这种情况下,通常有成千上万的属性(分量),每个代表词汇表中的一个词。再香-个例子,考虑包含过去30年各种股票日收盘价的时间序列数据集。在这种情况下,M性是特定天的价格,也数以千计。

维归约的线性代数技术

维归约的一些S常用的方法是使用线性代数技术,将数据由商维空间投影到低维空间,特别是对于连续数据。

主成分分析(PrincipalComponentsAnalysis,PCA) 是•种用于迹续域性的线性代数技术,它找出新的属性(主成分),这些属性是原M性的线性组合,是相互正交的(orthogonal),沖且捕获了数据的圾大变差。例如,前两个主成分是两个正交M性,是原城性的线性组合,尽可能多地捕获了数据的变差。

奇异值分解(SingularValueDecomposition,SVD) 是一种线性代数技术,它与PCA有关,并a也用于维归约。 p