【技术实现步骤摘要】
数据处理方法、装置、计算机设备及存储介质
[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。
技术介绍
[0002]随着计算机技术的不断深入发展,计算机设备中存储的数据量也越来越大,如计算机设备在存储全称数据以及对应的简称数据时,将存储大量的全
‑
简称数据,而为了方便在使用全
‑
简称数据进行后续的业务处理,常需要先对该计算机设备中存储的全
‑
简称数据进行数据清洗。而当前采用的对数据进行清洗的方法为去噪和去重等方式,而基于当前对数据进行清洗的方法,并不能对后续业务进行有效改善,由此可见,如何提升对全
‑
简称数据进行数据清洗时的有效性,成为了当前的研究热点。
技术实现思路
[0003]本专利技术实施例提供了一种数据处理方法、装置、计算机设备及存储介质,可提升对数据清洗的有效性。
[0004]一方面,本专利技术实施例提供了一种数据处理方法,包括:
[0005]获取目标数据集,所述目标数据集包括目标全称数据及所述目标全称数据对应的M个简称数据,M为正整数;
[0006]识别所述M个简称数据的数据类型,所述数据类型包含可疑类型,所述可疑类型的简称数据是指无法表示所述目标全称数据语义的简称数据;
[0007]若所述M个简称数据中存在数据类型为可疑类型的简称数据,则对所述目标全称数据进行数据解析,生成新的简称数据;
[0008]在所述目标数据集中,将所述M个简称数 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取目标数据集,所述目标数据集包括目标全称数据及所述目标全称数据对应的M个简称数据,M为正整数;识别所述M个简称数据的数据类型,所述数据类型包含可疑类型,所述可疑类型的简称数据是指无法表示所述目标全称数据语义的简称数据;若所述M个简称数据中存在数据类型为可疑类型的简称数据,则对所述目标全称数据进行数据解析,生成新的简称数据;在所述目标数据集中,将所述M个简称数据中数据类型为可疑类型的简称数据替换为所述新的简称数据。2.如权利要求1所述的方法,其特征在于,所述识别所述M个简称数据的数据类型,包括:获取所述M个简称数据中的每个简称数据的数据属性,所述目标全称数据的数据属性,以及所述目标全称数据分别和每个简称数据之间的数据关联性;根据每个简称数据的数据属性,所述目标全称数据的数据属性,以及所述数据关联性,对每个简称数据进行可信评估,并根据所述可信评估结果确定所述M个简称数据的数据类型。3.如权利要求2所述的方法,其特征在于,所述对每个简称数据进行可信评估,包括:若根据任一简称数据对应的数据属性,确定所述任一简称数据的数据长度小于长度阈值,则为所述任一简称数据添加可疑标签;或者,若根据所述任一简称数据对应的数据属性,所述目标全称数据的数据属性,以及所述数据关联性,确定所述任一简称数据和所述目标全称数据存在交集,则为所述任一简称数据添加可信标签。4.如权利要求2所述的方法,其特征在于,所述数据类型还包括可信类型,所述可信类型的简称数据是指能表示所述目标全称数据语义的简称数据;所述根据所述可信评估结果确定所述M个简称数据的数据类型,包括:根据所述可信评估结果,从所述M个简称数据中筛选出添加了可信标签的简称数据,添加了所述可信标签的简称数据的数据类型为可信类型;从所述M个简称数据中确定出添加了可疑标签的简称数据,并对所述添加了可疑标签的简称数据,以及所述目标全称数据进行语义解析,得到语义解析结果;根据所述语义解析结果,确定所述添加了可疑标签的简称数据的语义,以及所述目标全称数据的语义之间的语义关联性,并根据所述语义关联性确定添加了可疑标签的简称数据的数据类型。5.如权利要求4所述的方法,其特征在于,所述对所述添加了可疑标签的简称数据,以及所述目标全称数据进行语义解析,得到语义解析结果,包括:将所述添加了可疑标签的简称数据作为第一爬虫关键词,并将所述目标全称数据作为第二爬虫关键词;根据所述第一爬虫关键词和所述第二爬虫关键词进行爬虫搜索,得到爬虫搜索结果,并将所述爬虫搜索结果作为对所述添加了可疑标签的简称数据,以及所述目标全称数据进行语义解析的结果。
6.如权利要求5所述的方法,其特征在于,所述根据所述语义解析结果确定所述添加了可疑标签的简称数据的语义,以及所述目标全称数据的语义之间的语义关联性,包括:若所述爬虫搜索结果指示所述第一爬虫关键词和第二爬虫关键词在搜索结果中共同出现,则确定所述添加了可疑标签的简称数据的语义,以及所述目标全称数据的语义相关联;若所述爬虫搜索结果指示所述第一爬虫关键词和第二爬虫关键词在搜索结...
【专利技术属性】
技术研发人员:铁瑞雪,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。