数据挖掘在大数据时代下的应用

【摘要】 数据挖掘一直是各个行业的关注的重点。近几年,数据挖掘伴随着大数据的火热开始迎来更大的机遇。本文介绍了数据挖掘相关的概念,一些常用的数据挖掘的分析方法,最后介绍了数据挖掘技术几个常见的应用领域。

【关键词】 数据挖掘 分析方法 应用

一、基本概念介绍

1、大数据。2011 年5 月,麦肯锡全球研究院在《大数据:创新、竞争和生产力的下一个新领域》中指出,大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产要素;而人们对于大数据的运用预示着新一波生产率增长和消费者盈余浪潮的到来。据估计,在未来,数据将至少保持每年50%的增长速度。

2、数据挖掘。数据挖掘是一门新兴的学科,它诞生于20 世纪80 年代,主要面向商业应用的人工智能研究领域.从技术角度看,数据挖掘就是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程.从商业角度来说,数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。

二、数据挖掘的基本分析方法

分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据的挖掘,找出数据中潜在的规律。通过不同的分析方法,将解决不同类型的问题,在现实中针对不同的分析目标,找出相对应的方法。目前常用的分析方法主要有聚类分析、分类和预测、关联分析等。

1、聚类分析 。聚类分析就是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类。它是一种无先前知识,无监督的学习过程,从数据对象中找出有意义的数据,然后将其划分在一个未知的类。这不同于分类,因为它无法获知对象的属性。“物以类聚,人以群分”,通过聚类来分析事物之间类聚的潜在规律。聚类分析广泛运用于心理学、统计学、医学、生物学、市场销售、数据识别、机器智能学习等领域。 聚类分析根据隶属度的取值范圍可分为硬聚类和模糊聚类两种方法。硬聚类就是将对象划分到距离最近聚类的类,非此即彼,也就是说属于一类,就必然不属于另一类。模糊聚类就是根据隶属度的取值范围的大小差异来划分类。一个样本可能属于多个类。常见的聚类算法主要有密度聚类算法、层次聚类算法、划分聚类算法、网格聚类算法、模型聚类算法等。

2、分类和预测 。分类和数值预测是问题预测的两种主要类型。分类是预测分类(离散、无序的)标号,而预测则是建立连续值函数模型。分类是数据挖掘的重要基础,它是对已知的训练数据集表现出来的特性,获得每个类别的描述或属性来构造相应的分类器或者分类。分类是一种有监督的学习过程,它是根据训练数据集发现准确描述来划分类别。常见的分类算法主要有决策树、粗糙集、贝叶斯、遗传算法、神经网路等。预测就是根据分类和回归来预测将来的规律。常见的预测方法主要有局势外推法、时间序列法和回归分析法。

3、关联分析 。在自然界,事物之间存在着千丝万缕的联系,当某一事件发生时,可能会带动其它事件的发生。关联分析就是利用事物之间存在的依赖或关联知识来发现事物之间存在的规律性,然后通过这种规律性进行预测。如经典实例购物篮分析,就是通过分析顾客购物篮中物品的管理规律,来分析顾客的购物心理和习惯,然后根据这种规律来帮助营销人员制定营销策略。

三、大数据时代的数据挖掘的应用领域

1、科学研究。在科学研究中,经常需要分析各种大量的实验和观测数据,并找出相关的规律和知识.这些数据分析和挖掘都需要一定的算法,利用数据挖掘技术能科学的找出数据之间的规律以及找出我们未发现的知识.例如,对外空星体的探索、对DNA 数据的分析等等.

2、制造业。在制造业领域,通过对零部件生产的各种数据分析,来提高生产效率和提高良品率,如分析造成产品缺陷的环节及数据,找出生产过程影响生产率的因素,暴露制造和装配操作过程中变化情况等各种因素,从而通过重点改进相关环节及工艺,来提高企业的生产效率及利益.

3、电信业。近些年,随着电信业的蓬勃发展,电信业的技术和服务已经成为一个非常庞大的混合载体,它不仅关系市场,也关系到技术及服务.在将企业有效资源整合,实现无缝连接的过程中,将产生大量的复杂数据集合,如何从庞杂的数据中找寻出规律和知识,已成为电信业的重要问题。通过数据挖掘的运用,能很好的解决上述问题,为行业的发展起到很好的作用,如系统负载、数据通信速率和容量、用户行为、利润率等;采用孤立点分析和聚类方法,查找出盗用模式和异常状态;利用关联和序列模式,找出影响电信发展的相关因素,更好的推动电信业务的发展。

参 考 文 献

[1]胡天状.数据挖掘技术在教育决策支持系统中的应用[D].杭州:浙江师范大学,2002.

[2]刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009(1):146-149.