数据挖掘中分类、预测、聚类的定义和区别.

来源:学生作业帮助网 编辑:作业帮 时间:2024/05/03 06:43:28
数据挖掘中分类、预测、聚类的定义和区别.

数据挖掘中分类、预测、聚类的定义和区别.
数据挖掘中分类、预测、聚类的定义和区别.

数据挖掘中分类、预测、聚类的定义和区别.
sc-cpda 数据分析师公众交流平台 详细看我资料
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较.例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较.最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低
GPA 的学生的65%不是.
关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件.例如,一个数据挖掘系统可能发现的关联规则为:major(X,“computing science”) ⇒ owns(X,“personal computer”) [support=12%,confidence=98%] 其中,X 是一个表示学生的变量.这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机.这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度).
分类与预测
不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值.它们的相似性是他们都是预测的工具:
分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值.
聚类分析的数据对象不考虑已知的类标号.对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组.形成的每一簇可以被看作一个对象类.聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起.
数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析