分类是一种数据挖掘技术,它将类别分配给一组数据,以帮助进行更准确的预测和分析。分类是旨在使大型数据集的分析有效的几种方法之一。
为什么要分类?
非常大的数据库正在成为当今世界的标准大数据。想象一个拥有tb级数据的数据库——atb是一个亿字节的数据。脸谱网Alone每天要处理600兆兆字节的新数据(截止到2014年,它最后一次报告这些规格)。大数据的主要挑战是如何理解它。
庞大的数量并不是唯一的问题:大数据而且往往是多样化的,无组织的和快速变化的。考虑音频和视频数据、社交媒体帖子、3D数据或地理空间数据。这类数据不容易分类或组织。
为了应对这一挑战,人们开发了一系列自动提取有用信息的方法分类。
分类是如何工作的
分析师的目标是创建一组分类规则,用于回答问题、做出决策或预测行为。首先,开发一组训练数据,其中包含一组特定的属性和可能的结果。分类算法的工作是发现属性集如何得出它的结论。
考虑一个信用卡公司试图确定哪些潜在客户应该收到信用卡报价。
公司的培训数据可能包括:
的名字 | 年龄 | 性别 | 年收入 | 信用卡提供 |
---|---|---|---|---|
John Doe | 25 | 米 | 39500美元 | 没有 |
简母鹿 | 56 | F | 125000美元 | 是的 |
预测的列年龄,性别,年收入确定“预测属性”的值信用卡提供。在训练集中,预测器属性是已知的。然后,分类算法试图确定预测器属性的值是如何达到的:预测器和决策之间存在什么关系?它将开发一组预测规则,通常是一个IF/THEN语句。
显然,这是一个简单的示例,该算法需要比这里显示的两条记录大得多的数据采样。此外,预测规则可能要复杂得多,包括用于捕获属性细节的子规则。
接下来,给算法一个要分析的数据“预测集”,但该数据集缺乏预测属性(或决策):
的名字 | 年龄 | 性别 | 年收入 | 信用卡提供 |
---|---|---|---|---|
霜 | 42 | 米 | 88000美元 | |
玛丽穆雷 | 16 | F | 0美元 |
这些预测器数据有助于估计预测规则的准确性,然后调整这些规则,直到开发人员认为预测是有效和有用的。
每日分类的例子
分类和其他数据挖掘技术是我们作为消费者的日常经验的背后。天气预报使用分类技术来报告当天是雨天、晴天还是阴天。医学界通过分析健康状况来预测可能的医疗结果。一种分类方法,朴素贝叶斯,使用条件概率对垃圾邮件进行分类。