分类在数据挖掘中的应用

分类技术支持数据分析和结果预测

分类是一种数据挖掘技术,它将类别分配给一组数据,以帮助进行更准确的预测和分析。分类是旨在使大型数据集的分析有效的几种方法之一。

为什么要分类?

非常大的数据库正在成为当今世界的标准大数据。想象一个拥有tb级数据的数据库——atb是一个亿字节的数据。脸谱网Alone每天要处理600兆兆字节的新数据(截止到2014年,它最后一次报告这些规格)。大数据的主要挑战是如何理解它。

庞大的数量并不是唯一的问题:大数据而且往往是多样化的,无组织的和快速变化的。考虑音频和视频数据、社交媒体帖子、3D数据或地理空间数据。这类数据不容易分类或组织。

为了应对这一挑战,人们开发了一系列自动提取有用信息的方法分类

专注的女商人抬头看着投影屏幕
英雄形象/盖蒂图片社

分类是如何工作的

分析师的目标是创建一组分类规则,用于回答问题、做出决策或预测行为。首先,开发一组训练数据,其中包含一组特定的属性和可能的结果。分类算法的工作是发现属性集如何得出它的结论。

考虑一个信用卡公司试图确定哪些潜在客户应该收到信用卡报价。

公司的培训数据可能包括:

的名字 年龄 性别 年收入 信用卡提供
John Doe 25 39500美元 没有
简母鹿 56 F 125000美元 是的
训练数据

预测的列年龄,性别,年收入确定“预测属性”的值信用卡提供。在训练集中,预测器属性是已知的。然后,分类算法试图确定预测器属性的值是如何达到的:预测器和决策之间存在什么关系?它将开发一组预测规则,通常是一个IF/THEN语句。

显然,这是一个简单的示例,该算法需要比这里显示的两条记录大得多的数据采样。此外,预测规则可能要复杂得多,包括用于捕获属性细节的子规则。

接下来,给算法一个要分析的数据“预测集”,但该数据集缺乏预测属性(或决策):

的名字 年龄 性别 年收入 信用卡提供
42 88000美元
玛丽穆雷 16 F 0美元
预测数据

这些预测器数据有助于估计预测规则的准确性,然后调整这些规则,直到开发人员认为预测是有效和有用的。

每日分类的例子

分类和其他数据挖掘技术是我们作为消费者的日常经验的背后。天气预报使用分类技术来报告当天是雨天、晴天还是阴天。医学界通过分析健康状况来预测可能的医疗结果。一种分类方法,朴素贝叶斯,使用条件概率对垃圾邮件进行分类。

这个页面有用吗?