面向大数据的高维数据挖掘技术研究
1 大数据的发展挑战
1.1 在技术架构形式上
现阶段,数据库正在全球化,立足于该发展模式,分布式模式需要得以创建,除了需要庞大机器之外,还需要有效处理庞大的数据信息。但是面对大数据时代,针对飞速激增的数据量,传统数据分析已经不能满足需求,在以下3个方面得到体现:
1.1.1 数据处理的时效性
面对大数据不断推行,为了符合现阶段数据处理实际需求,数据实现在线处理。在此基础上,无论是数据处理选择,还是数据处理模式,都不断改变,处理具有实时性,除了能够实现流处理之外,批处理也成功实现。立足于大数据实时性处理,无论是业务需求,还是根据应用,都逐步发生改变。
1.1.2 实现了动态变化环境中的索引形式
在索引形式的基础上,关系数据库查询速度将不断提升,可是使用传统数据管理模式,索引形式并不可以产生变化,在此基础上,无论是更新效率,还是创建方式,都不断形成。针对大数据信息的变化特点,除了需要具备设计简洁的特点,创建索引方式还需要具有高效的特点,由此针对大数据变化,无论是数据信息的需求调整,还是数据信息的处理,都可以良好使用。所以说,针对大数据变化,全新的索引形式需要成功设计,在此基础上确保查询工作顺利实施。
1.1.3 先验知识的缺失
立足于传统数据分析结构,在关系型保存模式基础上,无论是出现先验知识,还是隐藏内部关系,都早已出现。比如说,对信息属性进行分析过程中,可能存在的取值范围需要确定,并且在实际分析之前,数据的了解就已经形成。针对大数据分析,无论是非结构化数据,还是半结构化数据,都需要创建类似数据,并且正式关系式需要实现。但是数据流的产生是不间断进行的,所以说针对实时发生的数据,先验知识并不会创建完善,在此情况下,对无先验知识,需要及时发现并及时处置。
2 高维数据挖掘中的问题
2.1 高维数据简介
在大数据库飞速增加的基础上,维数同样在急剧扩大,一旦增长到瓶颈出,数据处理将难以进行,人们将该数据就叫做高维数据。相对于传统数据挖掘而言,除了具有复杂性的特点之外,高维数据还具有多信息量性,由此成为数据挖掘的核心所在。
2.2 高维数据的特点
(1)稀疏性:实质就是数据库相对庞大时,即便高维数据非常多,但是能够符合使用要求的,相对较少。
(2)维度灾难:挖掘高维数据的过程中,往往存在较多的属性变化,在此情况下,索引结构性能将不断降低,特别是无论最近邻,还是最远邻,和查询点的距离往往都一样,由此最近邻往往是没有意义的,为此数据挖掘难度将急剧增加。
2.3 高维数据对于数据挖掘产生的影响
结合大数据特征,实际挖掘数据过程中,使用最近邻法,在庞大数据中查询效率将急剧提升,最近邻法往往依赖索引结构进行的,可是针对高维数据存在维度灾难的特点,最近邻查询往往被索引结构支持度将不断降低,甚至是使得最近邻查询无法有效进行。
无论是进行高维数据的分类聚类分析,还是进行高维数据的异常检测,受制于索引结构的制约,效果将大打折扣,甚至是失去效果,由此无论是异常检测算法还是聚类分析性能将不断降低;除此之外,针对同样的数据点距离,使得分类聚类概念意义不断消失,针对高危空间数据具备的稀疏性,任何数据点都能够视为异常点,此时针对高维数据异常检测将变得困难重重。
2.4 高维数据挖掘的研究方向
(1)距离函数或相似性度量函数:无论是重新定义距离函数,还是重新定义相似性度量函数,都能够成功避免“维度灾难”的制约。
(2)选维和降维:在不断降低高维数据维度的基础上,使得其成功形成低维数据,由此进行低维数据的数据挖掘。同时该方法最为人们所接受。
(3)高效的聚类算法和异常检测算法:为成功解决算法效率不高的难题,存在三个方面的措施:第一,设计性能更好的索引结构;第二,增量算法;第三,并行算法。
3 大数据的高维数据挖掘技术
3.1 大数据储存的三维矩阵模型
针对不一样来源的数据,往往可以选取不一样的数据处理方式。比如说,通常情况下,在分解数据种类的基础上,能够将调研数据分为三类:第一,单选;第二,多选;第三,排序。无论是传统数据记录,还是传统数据分析过程中,都是立足于同样数据库开展的,由此增加维度的不一样,无论是数据分析,还是数据处理,都将受到制约。
所以说,针对大数据时代,数据模型的创建除了需要具有内容多的特征,还需要存在极强的通用性。同样以上文例子为例,在数据调研过程中,无论是单选,还是多选,都能够依据向量来有效表达,对应的题目排序可以利用矩阵来表现,在社会网络数据的基础上进行,并且结合关键性类别来实际代表选题方式,最后模型转换则是建立在三维矩阵和传统数据库基础之上的(如图1),处理关键数据,由此不一样的空间形式将存在空间维度之上,此时三维矩阵将有全部数据来源构成,进行有效组合之后,形成立体式模型,如图2。
3.2 关联规则的三维矩阵挖掘
实际进行大数据挖掘过程中,关联规则挖掘是最受人们青睐的。无论是不一样的属性,还是项目关系,都是没有办法隐藏,同时也是没有办法预知的,只有在统计方法和数据库的基础上加以实现。现阶段,关联规则挖掘技术凭借其良好的性能,成为了使用广泛的技术之一,在关联规则挖掘过程中存在以下核心要素:
(1)置信度:主要用于度量衡量强度以及准确性;
(2)支持度:主要用于衡量度量重要性。
在日常生活和工作中,在关联规则挖掘过程中,只有上诉核心因素数值最小的时候,支持度同样也对应最小值,由此才得以成功处于关联规则内。假如需要使得关联规则可靠性最低,此时置信度需要确保为最低。
想要使得多维数据成功在空间中表现,立足于空间特种,能够在多维储存模型的基础上成功表现,由此无论是数据层次还是数据语言,都能够有效表达。比如说:在检测海洋数据过程中,气象环境除了风力之外,还有降水等等;海底环境处理重力之外,还有水深等等;水体环境除了有水温计盐度之外,还有潮流和水声,因素众多且相互交织,由此多维数据得以形成。在模型建立的基础上,使得多维数据能够在空间成功表达,使得海洋多样化的数据结构得以呈现。
3.3 基于超图的聚类算法
在原始数据相互关系的基础上,结合超图数据集,使得图形划分方法不断得到优化,此为超图聚类算法。在三维矩阵之中,利用分割算法进行图像划分,使用最为广泛的即为HMETIS算法,存在如下步骤:
(1)首先是粗化阶段,在最小超图的基础上,结合推进超图,进行不断压缩。
(2)其次是初始划分阶段,在二次划分超图的基础上,利用二次方法,来不断强化超图质量,使得工作效率有效提升。
(3)最后迁移优化阶段,分解超图之后,在投影基础上,使得分解质量不断提升。
3.4 高维数据挖掘的工具
现阶段,存在三种使用广泛的高维数据挖掘工具:第一,SPSS;第二,Exterprise Miner;第三,SAS。存在如下特征:
(1)SAS:是建立在统计理论之上的,存在诸多功能,高维数据挖掘功能相对齐全,但是需要专业人士进行操作,并且存在极高的运用成本。
(2)Exterprise Miner:具有操作简便的优势,高维数据的处理能力相对适中,但是不能进行数据搜索。
(3)SPSS:和SAS具有类似功能,但是相对而言具有较高性价比,高维数据挖掘功能较为出众,除此之外,立足于集成以及发布功能,工作人员能够较好的掌握挖掘结果,并且理解挖掘结果。