分类在数据挖掘中的应用 - 乐动体育投注备用网址

分类是一种数据挖掘技术，它将类别分配给一组数据，以帮助进行更准确的预测和分析。分类是旨在使大型数据集的分析有效的几种方法之一。

为什么要分类?

非常大的数据库正在成为当今世界的标准大数据。想象一个拥有tb级数据的数据库——atb是一个亿字节的数据。脸谱网Alone每天要处理600兆兆字节的新数据(截止到2014年，它最后一次报告这些规格)。大数据的主要挑战是如何理解它。

庞大的数量并不是唯一的问题:大数据而且往往是多样化的，无组织的和快速变化的。考虑音频和视频数据、社交媒体帖子、3D数据或地理空间数据。这类数据不容易分类或组织。

为了应对这一挑战，人们开发了一系列自动提取有用信息的方法分类。

分析师的目标是创建一组分类规则，用于回答问题、做出决策或预测行为。首先，开发一组训练数据，其中包含一组特定的属性和可能的结果。分类算法的工作是发现属性集如何得出它的结论。

考虑一个信用卡公司试图确定哪些潜在客户应该收到信用卡报价。

公司的培训数据可能包括:

的名字	年龄	性别	年收入	信用卡提供
John Doe	25	米	39500美元	没有
简母鹿	56	F	125000美元	是的

训练数据

预测的列年龄,性别,年收入确定“预测属性”的值信用卡提供。在训练集中，预测器属性是已知的。然后，分类算法试图确定预测器属性的值是如何达到的:预测器和决策之间存在什么关系?它将开发一组预测规则，通常是一个IF/THEN语句。

显然，这是一个简单的示例，该算法需要比这里显示的两条记录大得多的数据采样。此外，预测规则可能要复杂得多，包括用于捕获属性细节的子规则。

接下来，给算法一个要分析的数据“预测集”，但该数据集缺乏预测属性(或决策):

的名字	年龄	性别	年收入	信用卡提供
霜	42	米	88000美元
玛丽穆雷	16	F	0美元

预测数据

这些预测器数据有助于估计预测规则的准确性，然后调整这些规则，直到开发人员认为预测是有效和有用的。

分类和其他数据挖掘技术是我们作为消费者的日常经验的背后。天气预报使用分类技术来报告当天是雨天、晴天还是阴天。医学界通过分析健康状况来预测可能的医疗结果。一种分类方法，朴素贝叶斯，使用条件概率对垃圾邮件进行分类。

这个页面有用吗?

谢谢你告诉我们!

告诉我们为什么!