CN111797079A - 数据处理方法、装置、存储介质及电子设备 - Google Patents
数据处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN111797079A CN111797079A CN201910282186.7A CN201910282186A CN111797079A CN 111797079 A CN111797079 A CN 111797079A CN 201910282186 A CN201910282186 A CN 201910282186A CN 111797079 A CN111797079 A CN 111797079A
- Authority
- CN
- China
- Prior art keywords
- data
- data processing
- quality evaluation
- target data
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012545 processing Methods 0.000 title claims abstract description 183
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000013441 quality evaluation Methods 0.000 claims abstract description 143
- 238000011156 evaluation Methods 0.000 claims abstract description 81
- 238000001514 detection method Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000001303 quality assessment method Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 23
- 230000001133 acceleration Effects 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 10
- 238000009499 grossing Methods 0.000 description 8
- 230000008447 perception Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000005355 Hall effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01D—MEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
- G01D21/00—Measuring or testing not otherwise provided for
- G01D21/02—Measuring two or more variables by means not covered by a single other subclass
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例公开了一种数据处理方法、装置、存储介质及电子设备,其中,本申请实施例获取目标数据,计算所述目标数据在多个质量评估指标上的评估值;获取所述多个质量评估指标的预设阈值;根据所述评估值和所述预设阈值检测所述目标数据在所述质量评估指标上是否满足预设条件,并生成检测结果;根据所述检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理。本申请实现基于数据质量的自适应地调用相应的数据处理单元,能够避免调用无关的数据处理单元,显著降低了终端的资源消耗。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据处理方法、装置、存储介质及电子设备。
背景技术
数据层架构对采集的数据的清洗方法,大多数都采用固定的方式,具有统一的结构,采用统一的处理方式对数据存在的质量问题进行处理。事实上,不同的数据,质量不同,存在的问题也不尽相同。例如,数据A存在缺失问题,但是数据噪声较低,所以只需解决数据A的缺失问题即可,无需经过噪声处理模块;而数据B存在噪声大,但数据完整度高,所以只需解决数据B的噪声问题,无需解决经过缺失处理模块。综上所述,现有的数据处理方式灵活性低、容易造成资源浪费。
发明内容
本申请实施例提供了一种数据处理方法、装置、存储介质及电子设备,能够根据数据质量自适应地调整数据处理方式,实现节约资源。
第一方面,本申请实施例了提供了的一种数据处理方法,包括:
获取目标数据,计算所述目标数据在多个质量评估指标上的评估值;
获取所述多个质量评估指标的预设阈值;
根据所述评估值和所述预设阈值检测所述目标数据在所述质量评估指标上是否满足预设条件,并生成检测结果;
根据所述检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理。
第二方面,本申请实施例了提供了的一种数据处理装置,包括:
评估值计算模块,用于获取目标数据,计算所述目标数据在多个质量评估指标上的评估值;
阈值获取模块,用于获取所述多个质量评估指标的预设阈值;
质量检测模块,用于根据所述评估值和所述预设阈值检测所述目标数据在所述质量评估指标上是否满足预设条件,并生成检测结果;
数据处理模块,用于根据所述检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理。
第三方面,本申请实施例提供的存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请任一实施例提供的数据处理方法。
第四方面,本申请实施例提供了一种电子设备,包括处理器和存储器,所述存储器有计算机程序,所述处理器通过调用所述计算机程序,用于执行如本申请任一实施例提供的数据处理方法。
本申请实施例提供的技术方案,获取目标数据,计算目标数据在多个质量评估指标上的评估值,获取多个质量评估指标的预设阈值,根据评估值和预设阈值检测目标数据在质量评估指标上是否满足预设条件,并生成检测结果,根据检测结果,有针对性地从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对目标数据进行处理,通过这种方式实现了基于数据质量自适应地选择部分数据处理单元对数据处理,针对不同的数据采取不同的处理方式,极大地提高了数据处理的灵活度,并且能够避免调用无关的数据处理单元,显著降低终端的资源消耗,提升用户使用体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据处理方法的全景感知架构示意图。
图2为本申请实施例提供的数据处理方法的第一种流程示意图。
图3为本申请实施例提供的数据处理方法的第二种流程示意图。
图4为本申请实施例提供的数据处理装置的结构示意图。
图5为本申请实施例提供的电子设备的第一种结构示意图。
图6为本申请实施例提供的电子设备的第二种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请的保护范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参考图1,图1为本申请实施例提供的数据处理方法的全景感知架构示意图。所述数据处理方法应用于电子设备。所述电子设备中设置有全景感知架构。所述全景感知架构为电子设备中用于实现所述数据处理方法的硬件和软件的集成。
其中,全景感知架构包括信息感知层、数据处理层、特征抽取层、情景建模层以及智能服务层。
信息感知层用于获取电子设备自身的信息或者外部环境中的信息。所述信息感知层可以包括多个传感器。例如,所述信息感知层包括距离传感器、磁场传感器、光线传感器、加速度传感器、指纹传感器、霍尔传感器、位置传感器、陀螺仪、惯性传感器、姿态感应器、气压计、心率传感器等多个传感器。
其中,距离传感器可以用于检测电子设备与外部物体之间的距离。磁场传感器可以用于检测电子设备所处环境的磁场信息。光线传感器可以用于检测电子设备所处环境的光线信息。加速度传感器可以用于检测电子设备的加速度数据。指纹传感器可以用于采集用户的指纹信息。霍尔传感器是根据霍尔效应制作的一种磁场传感器,可以用于实现电子设备的自动控制。位置传感器可以用于检测电子设备当前所处的地理位置。陀螺仪可以用于检测电子设备在各个方向上的角速度。惯性传感器可以用于检测电子设备的运动数据。姿态感应器可以用于感应电子设备的姿态信息。气压计可以用于检测电子设备所处环境的气压。心率传感器可以用于检测用户的心率信息。
数据处理层用于对信息感知层获取到的数据进行处理。例如,数据处理层可以对信息感知层获取到的数据进行数据清理、数据集成、数据变换、数据归约等处理。
其中,数据清理是指对信息感知层获取到的大量数据进行清理,以剔除无效数据和重复数据。数据集成是指将信息感知层获取到的多个单维度数据集成到一个更高或者更抽象的维度,以对多个单维度的数据进行综合处理。数据变换是指对信息感知层获取到的数据进行数据类型的转换或者格式的转换等,以使变换后的数据满足处理的需求。数据归约是指在尽可能保持数据原貌的前提下,最大限度的精简数据量。
特征抽取层用于对数据处理层处理后的数据进行特征抽取,以提取所述数据中包括的特征。提取到的特征可以反映出电子设备自身的状态或者用户的状态或者电子设备所处环境的环境状态等。
其中,特征抽取层可以通过过滤法、包装法、集成法等方法来提取特征或者对提取到的特征进行处理。
过滤法是指对提取到的特征进行过滤,以删除冗余的特征数据。包装法用于对提取到的特征进行筛选。集成法是指将多种特征提取方法集成到一起,以构建一种更加高效、更加准确的特征提取方法,用于提取特征。
情景建模层用于根据特征抽取层提取到的特征来构建模型,所得到的模型可以用于表示电子设备的状态或者用户的状态或者环境状态等。例如,情景建模层可以根据特征抽取层提取到的特征来构建关键值模型、模式标识模型、图模型、实体联系模型、面向对象模型等。
智能服务层用于根据情景建模层所构建的模型为用户提供智能化的服务。例如,智能服务层可以为用户提供基础应用服务,可以为电子设备进行系统智能优化,还可以为用户提供个性化智能服务。
此外,全景感知架构中还可以包括多种算法,每一种算法都可以用于对数据进行分析处理,所述多种算法可以构成算法库。例如,所述算法库中可以包括马尔科夫算法、隐形狄利克雷分布算法、贝叶斯分类算法、支持向量机、K均值聚类算法、K近邻算法、条件随机场、残差网络、长短期记忆网络、卷积神经网络、循环神经网络等算法。
基于上述全景感知构架,数据处理层可以按照本申请实施例提供的数据处理方案对数据进行处理。例如,获取目标数据,其中,目标数据可以是信息感知层获取的数据获取电子设备通过其他方式采集的数据。计算目标数据在多个质量评估指标上的评估值,获取多个质量评估指标的预设阈值,根据评估值和预设阈值检测目标数据在质量评估指标上是否满足预设条件,并生成检测结果,根据检测结果,有针对性地从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对目标数据进行处理,通过这种方式实现了基于数据质量自适应地选择部分数据处理单元对数据处理,针对不同的数据采取不同的处理方式,极大地提高了数据处理的灵活度,并且能够避免调用无关的数据处理单元,显著降低终端的资源消耗,提升用户使用体验。然后,将经过处理的数据作为特征抽取层的输入,从这些数据中抽取特征,抽取的特征可以作为情景建模层中的如贝叶斯分类算法、支持向量机等模型的输入数据。
本申请实施例提供一种数据处理方法,该数据处理方法的执行主体可以是本申请实施例提供的数据处理装置,或者集成了该数据处理装置的电子设备,其中该数据处理装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。
请参照图2,图2为本申请实施例提供的数据处理方法的第一种流程示意图。本申请实施例提供的数据处理方法的具体流程可以如下:
步骤101、获取目标数据,计算所述目标数据在多个质量评估指标上的评估值。
本申请实施例中的目标数据可以是各种类型数据,例如,可以是电子设备根据预设任务收集的用户使用电子设备产生的终端使用数据、传感器数据、终端运行数据等。电子设备可以将收集到的数据存储在预设数据库中,在确定作为待处理的对象后,从数据库中获取目标数据进行处理。
电子设备获取到目标数据后,根据多个质量评估指标对目标数据的质量及进行评估,其中,质量评估指标可以根据数据的实际使用需求设置,在本实施例中,质量评估指标包括但不限于如下几项:目标数据的波动程度、冗余度、缺失程度和噪声程度等。
其中,每一项质量评估指标都有对应的评估方法。例如,在一实施例中,计算所述目标数据在多个质量评估指标上的评估值的步骤包括:
计算所述目标数据的方差,根据所述方差确定所述目标数据的波动程度,其中,方差与波动程度成正比;
计算目标数据中的相邻数据之间的差值,根据所述差值确定冗余数据的数量,根据所述冗余数据的数量计算所述冗余度;
查找所述目标数据中空值的数量,根据所述空值的数量确定所述缺失程度;
计算所述目标数据中的均值,并计算所述目标数据中大于所述均值的预设倍数的数据的数量,并根据偏离所述均值的数据的数量计算所述噪声程度。
其中,可以通过方差的大小来衡量数据的波动性大小。例如,目标数据为采集的用户A的电子设备上的加速度传感器数据,连续一段时间采集的加速度传感器数据构成加速度传感器数据序列,其方差为每个加速度传感器数据与全体加速度传感器数据的平均数之差的平方值的平均数。其中,数据的方差越大,则说明数据的波动程度越大;数据的方差越小,则说明数据的波动程度越小。
关于目标数据的缺失程度的计算,可以通过查找数据表中的空值的数量来实现。目标数据是按照数据的属性存储在数据库,即在数据库中,每个数据属性都会有一个值,如果这个值缺失就会直接被设为空值,即null。因此可以通过统计null的个数来确定缺失数据的数量,进而根据缺失数据的数量占数据的总数量的比例,来确定目标数据的缺失程度。
冗余度的计算方式如下:方式一,计算目标数据中重复出现的数据的数量。在数据实际存储时,会存在一些数据被重复存储的情况,重复的部分一般就是冗余数据。例如,目标数据为终端使用数据,终端使用数据包括以下属性项:当前运行的应用程序、上一个前景应用程序、当前应用程序在后台停留的时长、当前应用程序最近一次被切换至后台的时间。电子设备每间隔预设时间间隔记录一次上述属性项。若在一个时间间隔内,当前应用程序在后台停留的时长这一属性项被重复记录了两次,且内容完全相同,则有一个数据为冗余数据。通过这种方式可以查找出全部的冗余数据,进而确定冗余数据的个数,根据目标数据的总数量和冗余数据的个数,可以计算冗余度。
冗余度的第二种计算方式为:统计相邻数据之间的差异性。比如,若目标数据为电子设备采集的GPS(Global Positioning System,全球定位系统)数据,假设电子设备一秒钟采样50次,每相邻两次之间的数据几乎没有任何变化,实际上一秒钟采样25次就可以了,这个时候我们可以认为有25次采样的数据是冗余数据,这样就可以计算出冗余度为50%。其中,可以计算相邻数据之间的差值,来体现数据之间的差异性。
本申请实施例中,通过数据的偏离程度来判断数据是否为噪声数据,例如,首先计算所有数据的平均值,然后再计算与平均值离得比较远的数据的个数,例如,计算偏离平均值的预设倍数的数据个数,其中预设倍数可以根据实际需求设置,比如,预设倍数为3-10。比如说全部数据的平均值是5,其中有一个数据值是1000,可以认为这个1000是噪声值,可能会影响要后续数据分析或者特征提取的准确度。
按照上述多个质量评估指标对应的评估方法,计算出目标数据在多个质量评估指标上的评估值,包括目标数据的波动程度、冗余度、缺失程度和噪声程度等。
步骤102、获取所述多个质量评估指标的预设阈值。
预先为每个质量评估指标设定对应的预设阈值,通过将计算得到的评估值与预设阈值对比,以判断目标数据在预设的质量评估指标上是否满足预设条件。其中,针对每一个质量评估指标,预设阈值可以是专家根据实际经验设定的固定值,也可以是根据目标数据的数据类型、数据用途的不同,设定不同的预设阈值。例如,在一些实施例中,获取所述多个质量评估指标的预设阈值的步骤,包括:获取所述目标数据的数据类型或用途;根据所述数据类型或用途,确定所述质量评估指标的预设阈值。
由于数据的用途或者类型不同,对数据的需求也会不一样,预设阈值也会存在一定的差异。因此,可以预先根据不同的数据类型或用途设置不同的预设阈值,并建立数据类型或者用途与预设阈值之间的映射关系。用户在上传目标数据至电子设备进行处理时,在目标数据中设置数据的类型信息和用途信息。电子设备获取到目标数据后,获取目标数据的数据类型或用途信息,根据上述映射关系,查找与所述目标数据的数据类型或用途对应的预设阈值,作为用于后续评估目标数据在质量评估指标上是否满足预设条件的阈值。
所述映射关系可以以表格的形式存储,表格的行标题为质量评估指标,表格的列标题为数据类型或者用途,将预先设置好的各个质量评估指标的预设阈值存储至该表格。
步骤103、根据所述评估值和所述预设阈值检测所述目标数据在所述质量评估指标上是否满足预设条件,并生成检测结果。
电子设备在获取到目标数据在多个质量评估指标上的评估值以及对应的预设阈值后,根据评估值和预设阈值检测目标数据在各个质量评估指标上是否满足预设条件。
根据所述评估值和所述预设阈值检测所述目标数据在所述质量评估指标上是否满足预设条件,生成检测结果的步骤,包括:
分别对比所述质量评估指标对应的所述评估值与所述预设阈值的大小;若所述评估值大于所述预设阈值,则判定所述目标数据在对应的质量评估指标上满足预设条件;若所述评估值不大于所述预设阈值,则判定所述目标数据在对应的所述质量评估指标上不满足预设条件。
若判定目标数据在某一质量评估指标上不满足预设条件,则说明目标数据在该质量评估指标上不满足质量要求,需要进行数据处理。
步骤104、根据所述检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理。
通过上述方式,可以检测到目标数据在哪些质量评估指标上不满足质量要求,在一些实施例中,可以列出不满足预设条件的质量评估指标,作为检测结果。或者,在另外一些实施例中,根据检测结果生成调度规则,作为电子设备调用数据处理单元的依据。
例如,参照图3所示,图3为本申请实施例提供的数据处理方法的第二种流程示意图。在一些实施例中,步骤S04、根据检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元的步骤,包括:
步骤S041、根据检测结果生成调度规则,其中,一个质量评估指标对应一个数据处理单元;
步骤S042、按照所述调度规则,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元。
其中,根据检测结果生成调度规则的步骤,包括:将不满足预设条件的所述质量评估指标对应的调度值设置为1,将满足预设条件的所述质量评估指标对应的调度值设置为0;根据所述多个质量评估指标对应的调度值生成所述调度规则。例如,经过比较,波动程度对应的调度值为1,缺失程度对应的调度值为0,冗余度对应的调度值为0,噪声程度对应的调度值为1,则生成的调度规则为(1,0,0,1)。接下来电子设备可以根据该调度规则对预先设置的多个数据处理单元进行调度,以实现对目标数据的处理。
电子设备中预先针对不同的质量问题,设置有对应的数据处理单元。例如,针对波动程度大的问题,设置有波动数据处理单元;针对数据冗余的问题,设置有冗余数据处理单元;针对缺失数据多的问题,设置有缺失数据处理单元;针对数据噪声程度大的问题,设置有噪声数据处理单元。在其他实施例中,还可以针对其他质量问题设置其他更多的数据处理单元。
如果波动程度的调度值为1,则需要调度波动数据处理单元对数据进行处理。其中,数据的波动程度主要是通过方差的大小来判断的,方差较大,表明数据的抖动程度较为剧烈。可以对数据做平滑处理,平滑处理后,数据的抖动程度会变小,即方差值会变小,进而能够满足数据质量要求。常用的数据平滑处理方法有:均值平滑、中值平滑、高斯平滑等。
如果数据的缺失程度对应的调度值为1,可以调度缺失数据处理单元对数据进行填充。关于数据填充,有多种实现方式,例如:均值填充,即将同一属相项下其他不为空值的数据的平均值填充到缺失值部分;中值填充,即将同一属相项下其他不为空值的数据的中值填充到缺失值部分;众值填充,即将一属相项下其他不为空值的数据中出现频次最高的数据填充到缺失值部分;预测值填充,可以用一种简单的预测方法,如线性预测方法,将预测出的数据填充到缺失值部分;固定值填充,只要是缺失值,就填充一个人为设定的固定值。另外,除了上述数据填充方式之外,对于时间序列数据,还可以采用插值填充的方式对缺失值进行填充。
如果数据的冗余度对应的调度值为1,则需要调度冗余数据处理单元对冗余数据进行处理,可以按照以下方式处理:若是通过统计重复数据计算得到的冗余度,可以直接将重复的数据删除即可;若是通过计算相连数据之间的差值计算的冗余度,可以预设设定阈值,例如,前后两次的数据的差小于0.001,可以认为这两个数据之间的关联性非常强,只需要保留一个即可,删除另外一个。
如果数据的噪声程度对应的调度值为1,则需要调度噪声数据处理单元对噪声数据进行处理,由于噪声数据会对实际要解决的问题带来负面影响,因此,可以直接将噪声数据删除,或者用另外一个正常的数据代替噪声数据,例如平均值替换、中值替换等。
按照上述介绍的各种针对数据质量问题的数据处理方式,为每个数据处理单元配置对应的数据处理规则,根据调度规则调用不满足预设条件的质量评估指标对应的数据处理单元后,对所述目标数据进行处理。例如,调度规则为(1,0,0,1),则只需调用波动数据处理单元和噪声数据处理单元,而不必调用其他数据处理单元。通过这种数据处理方式,构建了自适应强的数据层架构,能够对数据质量进行全方位评估,并基于评估结果针对性的调用相应的数据处理单元,极大地提高了数据处理的灵活度。尤为重要的是,能够避免调用无关的数据处理单元,显著降低了终端的资源消耗,提升用户使用体验。
在另一个可选的实施方式中,根据所述检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理的步骤之后,所述方法还包括:
计算经过处理后的所述目标数据在所述多个质量评估指标上的评估值;
基于计算得到的评估值,返回执行根据所述评估值和所述预设阈值判断所述目标数据是否在所述质量评估指标上满足预设条件的步骤,直至所述目标数据在所述质量评估指标上全部满足预设条件。
在该实施方式中,在调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理之后,对处理后的目标数据再次进行质量评估,并重新生成调度规则,再次对数据进行处理,如此循环往复,直至处理后的数据在各个质量评估指标上均符合预设条件。
具体实施时,本申请不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
由上可知,本申请实施例提出的数据处理方法,获取目标数据,计算目标数据在多个质量评估指标上的评估值,获取多个质量评估指标的预设阈值,根据评估值和预设阈值检测目标数据在质量评估指标上是否满足预设条件,并生成检测结果,根据检测结果,有针对性地从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对目标数据进行处理,通过这种方式实现了基于数据质量自适应地选择部分数据处理单元对数据处理,针对不同的数据采取不同的处理方式,极大地提高了数据处理的灵活度,并且能够避免调用无关的数据处理单元,显著降低终端的资源消耗,提升用户使用体验。
在一实施例中还提供了一种数据处理装置。请参阅图4,图4为本申请实施例提供的数据处理装置400的结构示意图。其中该数据处理装置400应用于电子设备,该数据处理装置400包括评估值计算模块401、阈值获取模块402、质量检测模块403以及数据处理模块404,如下:
评估值计算模块401,用于获取目标数据,计算所述目标数据在多个质量评估指标上的评估值。
本申请实施例中的目标数据可以是各种类型数据,例如,可以是电子设备根据预设任务收集的用户使用电子设备产生的终端使用数据、传感器数据、终端运行数据等。电子设备可以将收集到的数据存储在预设数据库中,在确定作为待处理的对象后,评估值计算模块401从数据库中获取目标数据进行处理。
评估值计算模块401获取到目标数据后,根据多个质量评估指标对目标数据的质量及进行评估,其中,质量评估指标可以根据数据的实际使用需求设置,在本实施例中,质量评估指标包括但不限于如下几项:目标数据的波动程度、冗余度、缺失程度和噪声程度等。
其中,每一项质量评估指标都有对应的评估方法。例如,在一实施例中,评估值计算模块401还用于:计算所述目标数据的方差,根据所述方差确定所述目标数据的波动程度,其中,方差与波动程度成正比;计算目标数据中的相邻数据之间的差值,根据所述差值确定冗余数据的数量,根据所述冗余数据的数量计算所述冗余度;查找所述目标数据中空值的数量,根据所述空值的数量确定所述缺失程度;计算所述目标数据中的均值,并计算所述目标数据中大于所述均值的预设倍数的数据的数量,并根据偏离所述均值的数据的数量计算所述噪声程度。
其中,可以通过方差的大小来衡量数据的波动性大小。例如,目标数据为采集的用户A的电子设备上的加速度传感器数据,连续一段时间采集的加速度传感器数据构成加速度传感器数据序列,其方差为每个加速度传感器数据与全体加速度传感器数据的平均数之差的平方值的平均数。其中,数据的方差越大,则说明数据的波动程度越大;数据的方差越小,则说明数据的波动程度越小。
关于目标数据的缺失程度的计算,可以通过查找数据表中的空值的数量来实现。目标数据是按照数据的属性存储在数据库,即在数据库中,每个数据属性都会有一个值,如果这个值缺失就会直接被设为空值,即null。因此可以通过统计null的个数来确定缺失数据的数量,进而根据缺失数据的数量占数据的总数量的比例,来确定目标数据的缺失程度。
冗余度的计算方式如下:方式一,计算目标数据中重复出现的数据的数量。在数据实际存储时,会存在一些数据被重复存储的情况,重复的部分一般就是冗余数据。例如,目标数据为终端使用数据,终端使用数据包括以下属性项:当前运行的应用程序、上一个前景应用程序、当前应用程序在后台停留的时长、当前应用程序最近一次被切换至后台的时间。电子设备每间隔预设时间间隔记录一次上述属性项。若在一个时间间隔内,当前应用程序在后台停留的时长这一属性项被重复记录了两次,且内容完全相同,则有一个数据为冗余数据。通过这种方式可以查找出全部的冗余数据,进而确定冗余数据的个数,根据目标数据的总数量和冗余数据的个数,可以计算冗余度。
冗余度的第二种计算方式为:统计相邻数据之间的差异性。比如,若目标数据为电子设备采集的GPS数据,假设电子设备一秒钟采样50次,每相邻两次之间的数据几乎没有任何变化,实际上一秒钟采样25次就可以了,这个时候我们可以认为有25次采样的数据是冗余数据,这样就可以计算出冗余度为50%。其中,可以计算相邻数据之间的差值,来体现数据之间的差异性。
本申请实施例中,评估值计算模块401通过数据的偏离程度来判断数据是否为噪声数据,例如,评估值计算模块401先计算所有数据的平均值,然后再计算与平均值离得比较远的数据的个数,例如,计算偏离平均值的预设倍数的数据个数,其中预设倍数可以根据实际需求设置,比如,预设倍数为3-10。比如说全部数据的平均值是5,其中有一个数据值是1000,可以认为这个1000是噪声值,可能会影响要后续数据分析或者特征提取的准确度。
按照上述多个质量评估指标对应的评估方法,评估值计算模块401可以计算出目标数据在多个质量评估指标上的评估值,包括目标数据的波动程度、冗余度、缺失程度和噪声程度等。
阈值获取模块402,用于获取所述多个质量评估指标的预设阈值。
预先为每个质量评估指标设定对应的预设阈值,通过将计算得到的评估值与预设阈值对比,以判断目标数据在预设的质量评估指标上是否满足预设条件。其中,针对每一个质量评估指标,预设阈值可以是专家根据实际经验设定的固定值,也可以是根据目标数据的数据类型、数据用途的不同,设定不同的预设阈值。例如,在一些实施例中,获取所述多个质量评估指标的预设阈值的步骤,包括:获取所述目标数据的数据类型或用途;根据所述数据类型或用途,确定所述质量评估指标的预设阈值。
由于数据的用途或者类型不同,对数据的需求也会不一样,预设阈值也会存在一定的差异。因此,可以预先根据不同的数据类型或用途设置不同的预设阈值,并建立数据类型或者用途与预设阈值之间的映射关系。用户在上传目标数据至电子设备进行处理时,在目标数据中设置数据的类型信息和用途信息。评估值计算模块401获取到目标数据后,阈值获取模块402获取目标数据的数据类型或用途信息,根据上述映射关系,查找与所述目标数据的数据类型或用途对应的预设阈值,作为用于后续评估目标数据在质量评估指标上是否满足预设条件的阈值。
所述映射关系可以以表格的形式存储,表格的行标题为质量评估指标,表格的列标题为数据类型或者用途,将预先设置好的各个质量评估指标的预设阈值存储至该表格。
质量检测模块403,用于根据所述评估值和所述预设阈值检测所述目标数据在所述质量评估指标上是否满足预设条件,并生成检测结果。
在获取到目标数据在多个质量评估指标上的评估值以及对应的预设阈值后,质量检测模块403根据评估值和预设阈值检测目标数据在各个质量评估指标上是否满足预设条件。
质量检测模块403还用于:分别对比所述质量评估指标对应的所述评估值与所述预设阈值的大小;若所述评估值大于所述预设阈值,则判定所述目标数据在对应的质量评估指标上满足预设条件;若所述评估值不大于所述预设阈值,则判定所述目标数据在对应的所述质量评估指标上不满足预设条件。
若判定目标数据在某一质量评估指标上不满足预设条件,则说明目标数据在该质量评估指标上不满足质量要求,需要进行数据处理。
数据处理模块404,用于根据所述检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理。
通过上述方式,可以检测到目标数据在哪些质量评估指标上不满足质量要求,在一些实施例中,可以列出不满足预设条件的质量评估指标,作为检测结果。或者,在另外一些实施例中,根据检测结果生成调度规则,作为电子设备调用数据处理单元的依据。
在一些实施例中,数据处理模块404还用于:根据检测结果生成调度规则,其中,一个质量评估指标对应一个数据处理单元;按照所述调度规则,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元。
其中,数据处理模块404还用于:将不满足预设条件的所述质量评估指标对应的调度值设置为1,将满足预设条件的所述质量评估指标对应的调度值设置为0;根据所述多个质量评估指标对应的调度值生成所述调度规则。例如,经过比较,波动程度对应的调度值为1,缺失程度对应的调度值为0,冗余度对应的调度值为0,噪声程度对应的调度值为1,则数据处理模块404生成的调度规则为(1,0,0,1)。接下来电子设备可以根据该调度规则对预先设置的多个数据处理单元进行调度,以实现对目标数据的处理。
预先针对不同的质量问题,设置有对应的数据处理单元。例如,针对波动程度大的问题,设置有波动数据处理单元;针对数据冗余的问题,设置有冗余数据处理单元;针对缺失数据多的问题,设置有缺失数据处理单元;针对数据噪声程度大的问题,设置有噪声数据处理单元。在其他实施例中,还可以针对其他质量问题设置其他更多的数据处理单元。
如果波动程度的调度值为1,则数据处理模块404需要调度波动数据处理单元对数据进行处理。其中,数据的波动程度主要是通过方差的大小来判断的,方差较大,表明数据的抖动程度较为剧烈。可以对数据做平滑处理,平滑处理后,数据的抖动程度会变小,即方差值会变小,进而能够满足数据质量要求。常用的数据平滑处理方法有:均值平滑、中值平滑、高斯平滑等。
如果数据的缺失程度对应的调度值为1,数据处理模块404可以调度缺失数据处理单元对数据进行填充。关于数据填充,有多种实现方式,例如:均值填充,即将同一属相项下其他不为空值的数据的平均值填充到缺失值部分;中值填充,即将同一属相项下其他不为空值的数据的中值填充到缺失值部分;众值填充,即将一属相项下其他不为空值的数据中出现频次最高的数据填充到缺失值部分;预测值填充,可以用一种简单的预测方法,如线性预测方法,将预测出的数据填充到缺失值部分;固定值填充,只要是缺失值,就填充一个人为设定的固定值。另外,除了上述数据填充方式之外,对于时间序列数据,还可以采用插值填充的方式对缺失值进行填充。
如果数据的冗余度对应的调度值为1,则数据处理模块404需要调度冗余数据处理单元对冗余数据进行处理,可以按照以下方式处理:若是通过统计重复数据计算得到的冗余度,可以直接将重复的数据删除即可;若是通过计算相连数据之间的差值计算的冗余度,可以预设设定阈值,例如,前后两次的数据的差小于0.001,可以认为这两个数据之间的关联性非常强,只需要保留一个即可,删除另外一个。
如果数据的噪声程度对应的调度值为1,则数据处理模块404需要调度噪声数据处理单元对噪声数据进行处理,由于噪声数据会对实际要解决的问题带来负面影响,因此,可以直接将噪声数据删除,或者用另外一个正常的数据代替噪声数据,例如平均值替换、中值替换等。
按照上述介绍的各种针对数据质量问题的数据处理方式,为每个数据处理单元配置对应的数据处理规则,根据调度规则调用不满足预设条件的质量评估指标对应的数据处理单元后,对所述目标数据进行处理。例如,调度规则为(1,0,0,1),则只需调用波动数据处理单元和噪声数据处理单元,而不必调用其他数据处理单元。通过这种数据处理方式,构建了自适应强的数据层架构,能够对数据质量进行全方位评估,并基于评估结果针对性的调用相应的数据处理单元,极大地提高了数据处理的灵活度。尤为重要的是,能够避免调用无关的数据处理单元,显著降低了终端的资源消耗,提升用户使用体验。
在另一个可选的实施方式中,评估值计算模块401还用于根据所述检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理之后,计算经过处理后的所述目标数据在所述多个质量评估指标上的评估值;基于计算得到的评估值,质量检测模块403重新执行根据所述评估值和所述预设阈值判断所述目标数据是否在所述质量评估指标上满足预设条件的步骤,直至所述目标数据在所述质量评估指标上全部满足预设条件。
在该实施方式中,在调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理之后,对处理后的目标数据再次进行质量评估,并重新生成调度规则,再次对数据进行处理,如此循环往复,直至处理后的数据在各个质量评估指标上均符合预设条件。
由上可知,本申请实施例提出的数据处理装置,评估值计算模块401获取目标数据,计算目标数据在多个质量评估指标上的评估值,阈值获取模块402获取多个质量评估指标的预设阈值,质量检测模块403根据评估值和预设阈值检测目标数据在质量评估指标上是否满足预设条件,并生成检测结果,数据处理模块404根据检测结果,有针对性地从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对目标数据进行处理,通过这种方式实现了基于数据质量自适应地选择部分数据处理单元对数据处理,针对不同的数据采取不同的处理方式,极大地提高了数据处理的灵活度,并且能够避免调用无关的数据处理单元,显著降低终端的资源消耗,提升用户使用体验。
本申请实施例还提供一种电子设备。所述电子设备可以是智能手机、平板电脑等设备。如图5所示,图5为本申请实施例提供的电子设备的第一种结构示意图。电子设备300包括处理器301和存储器302。其中,处理器301与存储器302电性连接。
处理器301是电子设备300的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或调用存储在存储器302内的计算机程序,以及调用存储在存储器302内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。
在本实施例中,电子设备300中的处理器301会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器302中,并由处理器301来运行存储在存储器302中的计算机程序,从而实现各种功能:
获取目标数据,计算所述目标数据在多个质量评估指标上的评估值;
获取所述多个质量评估指标的预设阈值;
根据所述评估值和所述预设阈值检测所述目标数据在所述质量评估指标上是否满足预设条件,并生成检测结果;
根据所述检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理。
在一些实施例中,根据所述检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理的步骤之后,处理器301执行如下步骤:
计算经过处理后的所述目标数据在所述多个质量评估指标上的评估值;
基于计算得到的评估值,返回执行根据所述评估值和所述预设阈值判断所述目标数据是否在所述质量评估指标上满足预设条件的步骤,直至所述目标数据在所述质量评估指标上全部满足预设条件。
在一些实施例中,获取所述多个质量评估指标的预设阈值时,处理器301执行如下步骤:
获取所述目标数据的数据类型或用途;
根据所述数据类型或用途,确定所述质量评估指标的预设阈值。
在一些实施例中,根据检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元时,处理器301执行如下步骤:
根据检测结果生成调度规则,其中,一个质量评估指标对应一个数据处理单元;
按照所述调度规则,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元。
在一些实施例中,根据所述评估值和所述预设阈值检测所述目标数据在所述质量评估指标上是否满足预设条件,生成检测结果时,处理器301执行如下步骤:
分别对比所述质量评估指标对应的所述评估值与所述预设阈值的大小;
若所述评估值大于所述预设阈值,则判定所述目标数据在对应的质量评估指标上满足预设条件;
若所述评估值不大于所述预设阈值,则判定所述目标数据在对应的所述质量评估指标上不满足预设条件;
根据检测结果生成调度规则时,处理器301执行如下步骤:
将不满足预设条件的所述质量评估指标对应的调度值设置为1,将满足预设条件的所述质量评估指标对应的调度值设置为0;
根据所述多个质量评估指标对应的调度值生成所述调度规则。
在一些实施例中,所述质量评估指标包括所述目标数据的波动程度、冗余度、缺失程度和噪声程度;计算所述目标数据在多个质量评估指标上的评估值时,处理器301执行如下步骤:
计算所述目标数据的方差,根据所述方差确定所述目标数据的波动程度,其中,方差与波动程度成正比;
计算目标数据中的相邻数据之间的差值,根据所述差值确定冗余数据的数量,根据所述冗余数据的数量计算所述冗余度;
查找所述目标数据中空值的数量,根据所述空值的数量确定所述缺失程度;
计算所述目标数据中的均值,并计算所述目标数据中大于所述均值的预设倍数的数据的数量,并根据偏离所述均值的数据的数量计算所述噪声程度。
存储器302可用于存储计算机程序和数据。存储器302存储的计算机程序中包含有可在处理器中执行的指令。计算机程序可以组成各种功能模块。处理器301通过调用存储在存储器302的计算机程序,从而执行各种功能应用以及数据处理。
在一些实施例中,如图6所示,图6为本申请实施例提供的电子设备的第二种结构示意图。电子设备300还包括:射频电路303、显示屏304、控制电路305、输入单元306、音频电路307、传感器308以及电源309。其中,处理器301分别与射频电路303、显示屏304、控制电路305、输入单元306、音频电路307、传感器308以及电源309电性连接。
射频电路303用于收发射频信号,以通过无线通信与网络设备或其他电子设备进行通信。
显示屏304可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图像、文本、图标、视频和其任意组合来构成。
控制电路305与显示屏304电性连接,用于控制显示屏304显示信息。
输入单元306可用于接收输入的数字、字符信息或用户特征信息(例如指纹),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。其中,输入单元306可以包括指纹识别模组。
音频电路307可通过扬声器、传声器提供用户与电子设备之间的音频接口。其中,音频电路307包括麦克风。所述麦克风与所述处理器301电性连接。所述麦克风用于接收用户输入的语音信息。
传感器308用于采集外部环境信息。传感器308可以包括环境亮度传感器、加速度传感器、陀螺仪等传感器中的一种或多种。
电源309用于给电子设备300的各个部件供电。在一些实施例中,电源309可以通过电源管理系统与处理器301逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图6中未示出,电子设备300还可以包括摄像头、蓝牙模块等,在此不再赘述。
由上可知,本申请实施例提供了一种电子设备,所述电子设备获取目标数据,计算目标数据在多个质量评估指标上的评估值,获取多个质量评估指标的预设阈值,根据评估值和预设阈值检测目标数据在质量评估指标上是否满足预设条件,并生成检测结果,根据检测结果,有针对性地从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对目标数据进行处理,通过这种方式实现了基于数据质量自适应地选择部分数据处理单元对数据处理,针对不同的数据采取不同的处理方式,极大地提高了数据处理的灵活度,并且能够避免调用无关的数据处理单元,显著降低终端的资源消耗,提升用户使用体验。
本申请实施例还提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,所述计算机执行上述任一实施例所述的数据处理方法。
需要说明的是,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可以存储于计算机可读存储介质中,所述存储介质可以包括但不限于:只读存储器(ROM,Read OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
此外,本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
以上对本申请实施例所提供的数据处理方法、装置、存储介质及电子设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取目标数据,计算所述目标数据在多个质量评估指标上的评估值;
获取所述多个质量评估指标的预设阈值;
根据所述评估值和所述预设阈值检测所述目标数据在所述质量评估指标上是否满足预设条件,并生成检测结果;
根据所述检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理。
2.如权利要求1所述的数据处理方法,其特征在于,根据所述检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理的步骤之后,所述方法还包括:
计算经过处理后的所述目标数据在所述多个质量评估指标上的评估值;
基于计算得到的评估值,返回执行根据所述评估值和所述预设阈值判断所述目标数据是否在所述质量评估指标上满足预设条件的步骤,直至所述目标数据在所述质量评估指标上全部满足预设条件。
3.如权利要求1所述的数据处理方法,其特征在于,获取所述多个质量评估指标的预设阈值的步骤,包括:
获取所述目标数据的数据类型或用途;
根据所述数据类型或用途,确定所述质量评估指标的预设阈值。
4.如权利要求1至3任一项所述的数据处理方法,其特征在于,根据检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元的步骤,包括:
根据检测结果生成调度规则,其中,一个质量评估指标对应一个数据处理单元;
按照所述调度规则,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元。
5.如权利要求4所述的数据处理方法,其特征在于,根据所述评估值和所述预设阈值检测所述目标数据在所述质量评估指标上是否满足预设条件,生成检测结果的步骤,包括:
分别对比所述质量评估指标对应的所述评估值与所述预设阈值的大小;
若所述评估值大于所述预设阈值,则判定所述目标数据在对应的质量评估指标上满足预设条件;
若所述评估值不大于所述预设阈值,则判定所述目标数据在对应的所述质量评估指标上不满足预设条件;
根据检测结果生成调度规则的步骤,包括:
将不满足预设条件的所述质量评估指标对应的调度值设置为1,将满足预设条件的所述质量评估指标对应的调度值设置为0;
根据所述多个质量评估指标对应的调度值生成所述调度规则。
6.如权利要求1所述的数据处理方法,其特征在于,所述质量评估指标包括所述目标数据的波动程度、冗余度、缺失程度和噪声程度;计算所述目标数据在多个质量评估指标上的评估值的步骤包括:
计算所述目标数据的方差,根据所述方差确定所述目标数据的波动程度,其中,方差与波动程度成正比;
计算目标数据中的相邻数据之间的差值,根据所述差值确定冗余数据的数量,根据所述冗余数据的数量计算所述冗余度;
查找所述目标数据中空值的数量,根据所述空值的数量确定所述缺失程度;
计算所述目标数据中的均值,并计算所述目标数据中大于所述均值的预设倍数的数据的数量,并根据偏离所述均值的数据的数量计算所述噪声程度。
7.一种数据处理装置,其特征在于,包括:
评估值计算模块,用于获取目标数据,计算所述目标数据在多个质量评估指标上的评估值;
阈值获取模块,用于获取所述多个质量评估指标的预设阈值;
质量检测模块,用于根据所述评估值和所述预设阈值检测所述目标数据在所述质量评估指标上是否满足预设条件,并生成检测结果;
数据处理模块,用于根据所述检测结果,从预设的多个数据处理单元中,调用不满足预设条件的质量评估指标对应的数据处理单元,对所述目标数据进行处理。
8.如权利要求7所述的数据处理装置,其特征在于,所述阈值获取模块还用于:获取所述目标数据的数据类型或用途;根据所述数据类型或用途,确定所述质量评估指标的预设阈值。
9.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至6任一项所述的数据处理方法。
10.一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至6任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910282186.7A CN111797079A (zh) | 2019-04-09 | 2019-04-09 | 数据处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910282186.7A CN111797079A (zh) | 2019-04-09 | 2019-04-09 | 数据处理方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111797079A true CN111797079A (zh) | 2020-10-20 |
Family
ID=72805296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910282186.7A Withdrawn CN111797079A (zh) | 2019-04-09 | 2019-04-09 | 数据处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797079A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779150A (zh) * | 2021-09-14 | 2021-12-10 | 杭州数梦工场科技有限公司 | 一种数据质量评估方法及装置 |
CN114694834A (zh) * | 2020-12-29 | 2022-07-01 | 卫宁健康科技集团股份有限公司 | 一种电子健康档案管理方法、装置、设备及存储介质 |
CN114738680A (zh) * | 2022-04-26 | 2022-07-12 | 国机传感科技有限公司 | 一种数据处理系统及数据存储、恢复方法 |
CN116222670A (zh) * | 2023-05-08 | 2023-06-06 | 山东交通学院 | 一种城市绿地规划用生态景观边坡监测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009031047A (ja) * | 2007-07-25 | 2009-02-12 | Hitachi Ltd | 車両評価システム |
CN103093287A (zh) * | 2013-01-29 | 2013-05-08 | 广东电网公司电力调度控制中心 | 电网指标预测误差评估方法和系统 |
US20160180252A1 (en) * | 2014-12-19 | 2016-06-23 | International Business Machines Corporation | Evaluation solutions of optimization problems |
US20160371596A1 (en) * | 2014-03-10 | 2016-12-22 | Nec Corporation | Evaluation system, evaluation method, and computer-readable storage medium |
CN108229828A (zh) * | 2018-01-04 | 2018-06-29 | 上海电气集团股份有限公司 | 一种基于工业数据的分析系统 |
CN108898311A (zh) * | 2018-06-28 | 2018-11-27 | 国网湖南省电力有限公司 | 一种面向智能配电网抢修调度平台的数据质量检测方法 |
CN208273318U (zh) * | 2018-05-28 | 2018-12-21 | 上海朗骏智能科技股份有限公司 | 具有告警机制的路灯控制系统 |
-
2019
- 2019-04-09 CN CN201910282186.7A patent/CN111797079A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009031047A (ja) * | 2007-07-25 | 2009-02-12 | Hitachi Ltd | 車両評価システム |
CN103093287A (zh) * | 2013-01-29 | 2013-05-08 | 广东电网公司电力调度控制中心 | 电网指标预测误差评估方法和系统 |
US20160371596A1 (en) * | 2014-03-10 | 2016-12-22 | Nec Corporation | Evaluation system, evaluation method, and computer-readable storage medium |
US20160180252A1 (en) * | 2014-12-19 | 2016-06-23 | International Business Machines Corporation | Evaluation solutions of optimization problems |
CN108229828A (zh) * | 2018-01-04 | 2018-06-29 | 上海电气集团股份有限公司 | 一种基于工业数据的分析系统 |
CN208273318U (zh) * | 2018-05-28 | 2018-12-21 | 上海朗骏智能科技股份有限公司 | 具有告警机制的路灯控制系统 |
CN108898311A (zh) * | 2018-06-28 | 2018-11-27 | 国网湖南省电力有限公司 | 一种面向智能配电网抢修调度平台的数据质量检测方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114694834A (zh) * | 2020-12-29 | 2022-07-01 | 卫宁健康科技集团股份有限公司 | 一种电子健康档案管理方法、装置、设备及存储介质 |
CN113779150A (zh) * | 2021-09-14 | 2021-12-10 | 杭州数梦工场科技有限公司 | 一种数据质量评估方法及装置 |
CN114738680A (zh) * | 2022-04-26 | 2022-07-12 | 国机传感科技有限公司 | 一种数据处理系统及数据存储、恢复方法 |
CN116222670A (zh) * | 2023-05-08 | 2023-06-06 | 山东交通学院 | 一种城市绿地规划用生态景观边坡监测方法 |
CN116222670B (zh) * | 2023-05-08 | 2023-07-21 | 山东交通学院 | 一种城市绿地规划用生态景观边坡监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797079A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111797288A (zh) | 数据筛选方法、装置、存储介质及电子设备 | |
CN111800445B (zh) | 消息推送方法、装置、存储介质及电子设备 | |
CN111797861A (zh) | 信息处理方法、装置、存储介质及电子设备 | |
CN107885544B (zh) | 应用程序管控方法、装置、介质及电子设备 | |
CN111796979B (zh) | 数据采集策略的确定方法、装置、存储介质及电子设备 | |
CN111797148A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111796925A (zh) | 算法模型的筛选方法、装置、存储介质和电子设备 | |
CN111797849A (zh) | 用户活动识别方法、装置、存储介质及电子设备 | |
CN111797851A (zh) | 特征提取方法、装置、存储介质及电子设备 | |
CN111798019B (zh) | 意图预测方法、装置、存储介质及电子设备 | |
CN111797867A (zh) | 系统资源优化方法、装置、存储介质及电子设备 | |
CN111797857A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111797874B (zh) | 行为预测方法、装置、存储介质及电子设备 | |
CN112948763B (zh) | 件量预测方法、装置、电子设备及存储介质 | |
CN111797261B (zh) | 特征提取方法、装置、存储介质及电子设备 | |
CN111797655A (zh) | 用户活动识别方法、装置、存储介质及电子设备 | |
CN111797986A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111797127B (zh) | 时序数据分割方法、装置、存储介质及电子设备 | |
CN111796663B (zh) | 场景识别模型更新方法、装置、存储介质及电子设备 | |
CN111797860B (zh) | 特征提取方法、装置、存储介质及电子设备 | |
CN111797880A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111797071B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111796916A (zh) | 数据分发方法、装置、存储介质及服务器 | |
CN111797866A (zh) | 特征提取方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201020 |