优胜从选择开始,我们是您最好的选择!—— 第一学术网(北京鼎新文化传媒有限公司)
010 - 86226008
483825188@qq.com
您的位置:网站首页 > 科技论文 > 正文

浅谈大数据应用的质量控制

作者:朱启亮来源:魅力中国日期:2021-09-16人气:1658

一、大数据质量概述
现阶段大数据采集、处理及其应用过程中,其数据质量始终是人们的关注重点。而目前学术界对大数据质量的定义尚未明确统一。国内外分别从数据可得性、分析框架、数据分析与判断、数据代表性等方面进行探究,并得出不同结论。立足于数据特征、用户需求角度进行分析,本文认为大数据质量涉及到经济性、及时性、适用性、准确性以及完整性等方面。同时考虑到大数据存在的复杂性、不确定性特点,数据质量还需囊括可分析性、可得性等要素。由此表明,大数据质量是指在满足用户需求的基础上,进行准确性、及时性、可得性等上述要素的衡量,且各要素需体现在大数据形成、挖掘及其分析使用等全过程中。
二、大数据应用质量问题的分析
(一)与数据使用目的存在较低的契合度
用户数据使用出现质量问题的最根本因素在于契合度的缺失,通常情况下,除天文观测、基因检测之外,大数据的生成并非以特定目的或需求为根源,只是在现代信息技术广泛普及下衍生出的数据资源。从某种角度而言,大数据的形成属于自然过程,而传统数据的生成会以相关统计目的或需求为前提。所以数据使用期间,要想保证其数据使用契合用户需求,需以数据筛选、挖掘为必要手段。有人将大数据挖掘过程比作“大海捞针”的过程,由此体现出海量数据信息的低密度价值,所以用户数据使用过程中极易出现不契合使用目的的问题。
(二)数据系统性误差可能性的产生
无论是传统数据还是大数据,误差的产生不可避免。诸多客观、主观因素的影响下使得大数据应用出现误差问题,而其中误差又分为系统性误差与偶然性误差。相较于偶然误差而言,系统性误差的产生更难以被有效测度、鉴别,尤其是在试用期间因操作不当形成的系统性误差。分析系统性误差的出现情况,具体体现为:(1)数据未做到全面覆盖,继而在应用期间出现偏差误差,即未覆盖数据特征与大户数特征存在明显差异;(2)在人群相互影响下前提下,所形成的具有方向性特点的数据品茶,以微信群为例,相互影响下群友所探讨的内容可能出现共性偏差;(3)因个体小数据存在造假的可能,使得大数据应用出现倾向性虚假偏差啊,如社交平台中人们通常会选择对自身性别、年龄、外表等进行美化、夸大或造假等,导致大数据应用出现较大误差。
(三)数据可比性问题突出
可比性是大数据发挥出应有价值的关键所在,针对传统数据而言,因其在测度标准、获取方式、指标定义、衔接调整、获取范围等方面有着严格要求,所以传统数据在时间、空间等方面有较强的可比性。但是大数据受到表现多样性、测度非标准、非统一来源区域、形态复杂性、语境差异性等方面的影响,使得数据不存在时间连续可比性,在空间方面同样缺失横向比对性。即便能够做到大量生产数据资源的谷歌、百度等企业,受到标准要求、范畴变化等方面的影响,也难以以一致性的标准进行前后数据的控制,在实际统计分析过程中无法体现出大数据的可比性。
三、大数据应用的质量控制对策
尽管大数据应用期间些许质量问题的存在影响到其作用与价值的体现,但是现阶段大数据应用已然成为我国社会发展建设的主要趋势,所以亟需借助相关对策措施来加强对大数据应用质量的控制。
(一)重视对理论准备的完善
要想进一步提升大数据的应用质量,需要以完善理论支撑入手,站在理论层面进行大数据表现与特征的探讨分析,避免大数据应用受到盲目探索的影响。在实际应用期间,需在全面掌握大数据内涵的基础上,结合以下几点完善大数据的理论准备:(1)大数据来源认知的转变。基于现代信息、互联网等技术的普及应用,目前数据的定义不再是只能用于数字表现、加减乘除应用的数据,所有可记录的事实均能以数据的形式体现。所以大数据的构成包括非结构化数据如声音、文字、表情、文本、视频等,以及相关数字化信息等。做到在统计学范围内纳入上述数据信息,并尝试在当前统计学教材中进行大数据理论知识的增设,以帮助人们加深对大数据的掌握,拓展对于数据应用的视野。(2)总体、个体、变量等认知的转变。数据的应用需要以用户明确数据类型为基础,即掌握所使用的数据对应的个体、总体以及变量表达。不同于传统数据而言,大数据的使用无法明确数据的个体、总体,所以其传统变量、个体、总体的定义不适用于大数据中。为此可结合以下方面进行大数据处理的优化。一方面是大数据应用目的是相关规律的探索,那么其总体可以确定为特定时段内的所有数据,而个体则是截取数据内的每一个具体数据,同时依据大数据分析目的、方向来确定变量。另一方面则是从具体数据的分析入手,进行来源背后事物、人物等方面的调查,经过核对检验后进行个体、总体的科学定义。
(二)重视对质量控制方案的构建
完整且科学的质控方案是发挥出大数据价值与作用的关键所在,而针对质控方案的制定,需依据对用户需求的分析,从事前、事中、事后三方面进行方案的优化。针对事前控制而言,首先结合实际情况进行数据源、使用目的的分析研究,明确大数据应用的具体需求与目的。其次是判断能否获取相应的数据,并精准界定数据选择的范围,以相关法律制度为参照,确定数据生产者与使用者的权利、职责。针对事中控制而言,需做到在应用期间重视对数据对接的强化开展,以明确数据特点、使用目的、数据分类、数据测度为前提,以标准化的形式处理大数据与相关数据的衔接。例如政府CPI需要以相应的原则与方法来应用、处理京东、阿里巴巴平台缠产生的数据,依照相关标准进行数据的分类,结合对价格、销售数量等方面的分析,进行CPI层次权数的科学调整。再次,按照规定要求进行数据修补与审核,为避免些许完整性、准确性问题的存在而影响到大数据的利用,需在事中控制阶段进行数据修补、清晰等。最后,加强数据验证与比对,若大数据的获取存在来源差异的情况,需要进行同步比较,通过对内涵质量差异的控制来提升数据可比性。针对事后控制而言,则强调对大数据使用过程进行总体性评估、分析以及总结,具体涉及到有效性评估、逻辑性检查等。并在使用后阶段比对数据使用前后的差异,若存在差异则需深入挖掘其成因。
(三)重视对小数据的研究
小数据是形成大大数据资源的关键所在,是指个体、单个事物特征反映的数据,例如姓名、籍贯、性别、民族、体重等,主要体现为个人基本特征小数据,个人身体健康体现的小数据集则包括内外科、血常规、眼鼻喉等体检数据等[6]。针对大数据的应用,在某种程度而言可以体现为对小数据的利用,所以大数据契合性低、系统性误差等问题的产生,均受到小数据生成的直接影响。所以,需要加大对小数据的研究与控制力度,依据实际需求加大对小数据影响因素、变化情况、来源等方面的研究与评估,做到按照规定标准进行小数据系统性的审核,结合对小数据集生成过程、动态变化过程的梳理,实现通过小数据集质量控制来促进大数据价值体现。
四、结语
综上所述,大数据时代背景下如何最大化体现出大数据的价值及作用,需要以数据应用质量的控制为支撑。对此,需深度剖析大数据应用存在的质量问题,在此基础上结合科学措施如重视对理论准备的完善、对质量控制方案的构建以及对小数据的研究来提升大数据质量控制水平。

期刊知识

客服一号: 卜编辑

客服二号: 林编辑

地址:北京市通州区北京鼎新文化传媒有限公司 ICP备案号:京ICP备14054149号-4

【免责声明】:第一学术网 所提供的信息资源如有侵权、违规,请及时告知。

版权所有:第一学术网(北京鼎新文化传媒有限公司)

扫码联系客服
扫码联系客服

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫码联系客服

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文