数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:35723605 阅读:13 留言:0更新日期:2022-11-26 18:20
本发明专利技术实施例公开了一种数据处理方法、装置、计算机设备及存储介质,其中方法包括:获取目标数据集,所述目标数据集包括目标全称数据及所述目标全称数据对应的M个简称数据,M为正整数;识别所述M个简称数据的数据类型,所述数据类型包含可疑类型,所述可疑类型的简称数据是指无法表示所述目标全称数据语义的简称数据;若所述M个简称数据中存在数据类型为可疑类型的简称数据,则对所述目标全称数据进行数据解析,生成新的简称数据;在所述目标数据集中,将所述M个简称数据中数据类型为可疑类型的简称数据替换为所述新的简称数据,可提升对数据清洗的有效性。数据清洗的有效性。数据清洗的有效性。

【技术实现步骤摘要】
数据处理方法、装置、计算机设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术的不断深入发展,计算机设备中存储的数据量也越来越大,如计算机设备在存储全称数据以及对应的简称数据时,将存储大量的全

简称数据,而为了方便在使用全

简称数据进行后续的业务处理,常需要先对该计算机设备中存储的全

简称数据进行数据清洗。而当前采用的对数据进行清洗的方法为去噪和去重等方式,而基于当前对数据进行清洗的方法,并不能对后续业务进行有效改善,由此可见,如何提升对全

简称数据进行数据清洗时的有效性,成为了当前的研究热点。

技术实现思路

[0003]本专利技术实施例提供了一种数据处理方法、装置、计算机设备及存储介质,可提升对数据清洗的有效性。
[0004]一方面,本专利技术实施例提供了一种数据处理方法,包括:
[0005]获取目标数据集,所述目标数据集包括目标全称数据及所述目标全称数据对应的M个简称数据,M为正整数;
[0006]识别所述M个简称数据的数据类型,所述数据类型包含可疑类型,所述可疑类型的简称数据是指无法表示所述目标全称数据语义的简称数据;
[0007]若所述M个简称数据中存在数据类型为可疑类型的简称数据,则对所述目标全称数据进行数据解析,生成新的简称数据;
[0008]在所述目标数据集中,将所述M个简称数据中数据类型为可疑类型的简称数据替换为所述新的简称数据。
[0009]再一方面,本专利技术实施例提供了一种数据处理装置,包括:
[0010]获取单元,用于获取目标数据集,所述目标数据集包括目标全称数据及所述目标全称数据对应的M个简称数据,M为正整数;
[0011]识别单元,用于识别所述M个简称数据的数据类型,所述数据类型包含可疑类型,所述可疑类型的简称数据是指无法表示所述目标全称数据语义的简称数据;
[0012]解析单元,用于若所述M个简称数据中存在数据类型为可疑类型的简称数据,则对所述目标全称数据进行数据解析,生成新的简称数据;
[0013]替换单元,用于在所述目标数据集中,将所述M个简称数据中数据类型为可疑类型的简称数据替换为所述新的简称数据。
[0014]再一方面,本专利技术实施例提供了一种计算机设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持计算机设备执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理
器被配置用于调用所述程序指令,执行如下步骤:
[0015]获取目标数据集,所述目标数据集包括目标全称数据及所述目标全称数据对应的M个简称数据,M为正整数;
[0016]识别所述M个简称数据的数据类型,所述数据类型包含可疑类型,所述可疑类型的简称数据是指无法表示所述目标全称数据语义的简称数据;
[0017]若所述M个简称数据中存在数据类型为可疑类型的简称数据,则对所述目标全称数据进行数据解析,生成新的简称数据;
[0018]在所述目标数据集中,将所述M个简称数据中数据类型为可疑类型的简称数据替换为所述新的简称数据。
[0019]再一方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,所述程序指令被处理器执行时,所述程序指令被处理器执行时,用于执行如第一方面所述的数据处理方法。
[0020]在本专利技术实施例中,计算机设备在从目标数据集中确定出目标全程数据,以及与该目标全称数据对应的M个简称数据后,该计算机设备可对该M个简称数据中的每个简称数据的数据类型进行识别,以从该M个简称数据中筛选出,无法表达该目标全称数据语义的可疑类型的简称数据,基于对简称数据中可疑类型的简称数据的筛选,可降低计算机设备后续的数据处理压力,提升计算机设备的数据处理效率。而该计算机设备在筛选出可疑类型的简称数据后,则可对该目标数据进行数据解析,以生成新的简称数据,并采用新生成的简称数据,对该目标数据集中原先可疑类型的简称数据进行替换,使得计算机设备可有效提升该目标数据集中的各简称数据对相应全称数据进行语义表达的准确度,有利于在采用该目标数据集执行下游任务时的准确度,同时,基于该计算机设备对目标全称数据的数据解析,以及采用新生成的简称数据对可疑类型的简称数据的替换,可同时实现对该目标数据集中的全称数据和简称数据的丰富,提高了该目标数据集中的数据有效率和充足率。
附图说明
[0021]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本专利技术实施例提供的一种数据搜索系统的示意图;
[0023]图2是本专利技术实施例提供的一种数据处理方法的示意流程图;
[0024]图3是本专利技术实施例提供的一种对全称数据进行数据解析的示意图;
[0025]图4是本专利技术实施例提供的一种数据处理方法的示意流程图;
[0026]图5是本专利技术实施例提供的一种进行爬虫校验的示意图;
[0027]图6是本专利技术实施例提供的一种生成新的简称数据的示意图;
[0028]图7是本专利技术实施例提供的一种数据处理方法的示意图;
[0029]图8是本专利技术实施例提供的一种数据处理装置的示意性框图;
[0030]图9是本专利技术实施例提供的一种计算机设备的示意性框图。
具体实施方式
[0031]本专利技术实施例提供了一种数据处理方法,可使计算机设备在对目标数据集进行数据清洗时,可在确定目标全称数据的M个简称数据中存在可疑类型的简称数据时,基于该目标全称数据生成新的简称数据,从而采用该新生成的简称数据对该目标全称数据对应的可疑类型的简称数据进行替换,以使得替换得到的目标全称数据的简称数据,均是能表示该目标全称数据的语义的简称数据,从而使得计算机设备可在对目标数据集进行数据清洗时,不仅能删除该目标数据集中无法对全称数据进行语义表达的简称数据,还能实现对目标数据集中的简称数据进行补充,从而可提升对该目标数据集进行数据清洗的有效性,并显著提升该目标数据集中简称数据的数量。在一个实施例中,该目标数据集是包括了至少一个简称数据以及至少一个全称数据的任意集合,该目标数据集中所包括的简称数据和全称数据的数据类型可以是任意类型,且该目标数据集中的任意两个全称数据(或简称数据)可以是相同类型的数据,也可以是不同类型的数据,本专利技术实施例不做限定,而该目标数据集所包括的目标全称数据则可以是该目标数据集中的任一全称数据,在该目标数据集中一个全称数据可对应一个或多个简称数据,且一个简称数据同样也可和一个或多个全称数据相对应。可以理解的是,全称数据是用于描述机关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取目标数据集,所述目标数据集包括目标全称数据及所述目标全称数据对应的M个简称数据,M为正整数;识别所述M个简称数据的数据类型,所述数据类型包含可疑类型,所述可疑类型的简称数据是指无法表示所述目标全称数据语义的简称数据;若所述M个简称数据中存在数据类型为可疑类型的简称数据,则对所述目标全称数据进行数据解析,生成新的简称数据;在所述目标数据集中,将所述M个简称数据中数据类型为可疑类型的简称数据替换为所述新的简称数据。2.如权利要求1所述的方法,其特征在于,所述识别所述M个简称数据的数据类型,包括:获取所述M个简称数据中的每个简称数据的数据属性,所述目标全称数据的数据属性,以及所述目标全称数据分别和每个简称数据之间的数据关联性;根据每个简称数据的数据属性,所述目标全称数据的数据属性,以及所述数据关联性,对每个简称数据进行可信评估,并根据所述可信评估结果确定所述M个简称数据的数据类型。3.如权利要求2所述的方法,其特征在于,所述对每个简称数据进行可信评估,包括:若根据任一简称数据对应的数据属性,确定所述任一简称数据的数据长度小于长度阈值,则为所述任一简称数据添加可疑标签;或者,若根据所述任一简称数据对应的数据属性,所述目标全称数据的数据属性,以及所述数据关联性,确定所述任一简称数据和所述目标全称数据存在交集,则为所述任一简称数据添加可信标签。4.如权利要求2所述的方法,其特征在于,所述数据类型还包括可信类型,所述可信类型的简称数据是指能表示所述目标全称数据语义的简称数据;所述根据所述可信评估结果确定所述M个简称数据的数据类型,包括:根据所述可信评估结果,从所述M个简称数据中筛选出添加了可信标签的简称数据,添加了所述可信标签的简称数据的数据类型为可信类型;从所述M个简称数据中确定出添加了可疑标签的简称数据,并对所述添加了可疑标签的简称数据,以及所述目标全称数据进行语义解析,得到语义解析结果;根据所述语义解析结果,确定所述添加了可疑标签的简称数据的语义,以及所述目标全称数据的语义之间的语义关联性,并根据所述语义关联性确定添加了可疑标签的简称数据的数据类型。5.如权利要求4所述的方法,其特征在于,所述对所述添加了可疑标签的简称数据,以及所述目标全称数据进行语义解析,得到语义解析结果,包括:将所述添加了可疑标签的简称数据作为第一爬虫关键词,并将所述目标全称数据作为第二爬虫关键词;根据所述第一爬虫关键词和所述第二爬虫关键词进行爬虫搜索,得到爬虫搜索结果,并将所述爬虫搜索结果作为对所述添加了可疑标签的简称数据,以及所述目标全称数据进行语义解析的结果。
6.如权利要求5所述的方法,其特征在于,所述根据所述语义解析结果确定所述添加了可疑标签的简称数据的语义,以及所述目标全称数据的语义之间的语义关联性,包括:若所述爬虫搜索结果指示所述第一爬虫关键词和第二爬虫关键词在搜索结果中共同出现,则确定所述添加了可疑标签的简称数据的语义,以及所述目标全称数据的语义相关联;若所述爬虫搜索结果指示所述第一爬虫关键词和第二爬虫关键词在搜索结...

【专利技术属性】
技术研发人员:铁瑞雪
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1