一种数据处理方法、系统、存储介质及电子设备技术方案

技术编号:31170989 阅读:20 留言:0更新日期:2021-12-04 13:33
本申请公开了一种数据处理方法、系统、存储介质及电子设备,获取待处理文本数据,对待处理文本数据进行数据类型识别得到数据类型结果,基于数据类型结果确定对应的特征配置列表,根据数据类型结果获取对应的提取规则,基于提取规则从特征配置列表中提取特征数据,当特征数据符合预设条件时,基于预设摘要规则和特征数据生成文本摘要数据。通过上述方案,在包含非特殊字符等复杂数据结构下,对不同的数据类型进行特征提取处理,得到各自对应的特征数据,满足了在复杂数据结构下的类型自动识别、特征自动提取、文本摘要自动生成等需求,提高了获取文本摘要数据的准确性。此外,将文本摘要数据进行相似度算法识别,提高了相似度计算结果的准确性。算结果的准确性。算结果的准确性。

【技术实现步骤摘要】
一种数据处理方法、系统、存储介质及电子设备


[0001]本申请涉及数据处理
,更具体地说,涉及一种数据处理方法、系统、存储介质及电子设备。

技术介绍

[0002]在自然语言处理任务中,判断两篇文档是否相似,通过相似度算法计算两篇文档的相似程度。比如,基于聚类算法发现微博热点话题时,需要度量各篇文本的内容相似度,然后让内容足够相似的微博聚成一个簇;在对语料进行预处理时,基于文本的相似度,把重复的文本给选出来并删除。
[0003]在相似度算法计算前,通常会对数据进行预处理,目前常用的预处理的方法是去掉数据中的特殊字符(如标点、括号、标签等),但是,在面对复杂数据对象(如结构数据)时,会受到非特殊字符(字母、数字、汉字)的干扰,使得无法在复杂结构数据中把重复的文本给选出来并删除,造成生成的文本摘要数据包含重复的文本,从而降低了生成文本摘要数据的准确性。
[0004]因此,现有的生成文本摘要数据的准确性低。

技术实现思路

[0005]有鉴于此,本申请公开了一种数据处理方法、系统、存储介质及电子设备,旨在满足在复杂数据结构下的类型自动识别、特征自动提取、文本摘要自动生成等需求,提高了获取文本摘要数据的准确性。
[0006]为了实现上述目的,其公开的技术方案如下:
[0007]本申请第一方面公开了一种数据处理方法,所述方法包括:
[0008]获取待处理文本数据;所述待处理文本数据根据用户需求进行采集得到;
[0009]对所述待处理文本数据进行数据类型识别,得到数据类型结果,并基于所述数据类型结果,确定对应的特征配置列表;
[0010]根据所述数据类型结果获取对应的提取规则,并基于所述提取规则从所述特征配置列表中提取特征数据;
[0011]当所述特征数据符合预设条件时,基于预设摘要规则和符合预设条件的特征数据,生成文本摘要数据;所述预设摘要规则由所述特征配置列表的摘要规则字段确定。
[0012]优选的,所述对所述待处理文本数据进行数据类型识别,得到数据类型结果,并基于所述数据类型结果,确定对应的特征配置列表,包括:
[0013]对所述待处理文本数据进行数据类型识别;
[0014]当所述待处理文本数据的数据类型为String类型时,生成String类型结果,并基于所述String类型结果对所述待处理文本数据进行解析,得到String类型特征配置列表;
[0015]当所述待处理文本数据的数据类型为XML类型时,生成XML类型结果,并基于所述XML类型结果对所述待处理文本数据进行解析,得到XML类型特征配置列表;
[0016]当所述待处理文本数据的数据类型为JSON类型时,生成JSON类型结果,并基于所述JSON类型结果对所述待处理文本数据进行解析,得到JSON类型特征配置列表。
[0017]优选的,所述根据所述数据类型结果获取对应的提取规则,并基于所述提取规则从所述特征配置列表中提取特征数据,包括:
[0018]对所述数据类型结果进行判定;
[0019]当所述数据类型结果为所述String类型结果时,通过预设正则表达式和预设特征字段,对所述String类型特征配置列表的信息进行正则匹配,并提取符合正则匹配的第一特征数据;
[0020]当所述数据类型结果为所述XML类型结果时,通过预设属性表达式对所述XML类型特征配置列表的信息进行计算,得到第一计算结果,并基于所述第一计算结果和所述预设特征字段,确定第二特征数据;
[0021]当所述数据类型结果为所述JSON类型结果时,通过所述预设属性表达式对所述JSON类型特征配置列表的信息进行计算,得到第二计算结果,并基于所述第二计算结果和所述预设特征字段,确定第三特征数据。
[0022]优选的,所述当所述特征数据符合预设条件时,基于预设摘要规则和符合预设条件特征数据,生成文本摘要数据,包括:
[0023]当所述第一特征数据不为空值时,从所述String类型特征配置列表中获取第一摘要规则字段,并基于所述第一摘要规则字段和所述第一特征数据,生成第一文本摘要数据;
[0024]当所述第二特征数据不为空值时,从所述XML类型特征配置列表中获取第二摘要规则字段,并基于所述第二摘要规则字段和所述第二特征数据,生成第二文本摘要数据;
[0025]当所述第三特征数据不为空值时,从所述JSON类型特征配置列表中获取第三摘要规则字段,并基于所述第三摘要规则字段和所述第三特征数据,生成第三文本摘要数据。
[0026]优选的,还包括:
[0027]若所述特征数据为空值,则返回所述获取待处理文本数据这一步骤。
[0028]本申请第二方面公开了一种数据处理系统,其特征在于,所述系统包括:
[0029]获取单元,用于获取待处理文本数据;所述待处理文本数据根据用户需求进行采集得到;
[0030]确定单元,用于对所述待处理文本数据进行数据类型识别,得到数据类型结果,并基于所述数据类型结果,确定对应的特征配置列表;
[0031]提取单元,用于根据所述数据类型结果获取对应的提取规则,并基于所述提取规则从所述特征配置列表中提取特征数据;
[0032]生成单元,用于当所述特征数据符合预设条件时,基于预设摘要规则和符合预设条件特征数据,生成文本摘要数据;所述预设摘要规则由所述特征配置列表的摘要规则字段确定。
[0033]优选的,所述确定单元,包括:
[0034]识别模块,用于对所述待处理文本数据进行数据类型识别;
[0035]第一获取模块,用于当所述待处理文本数据的数据类型为String类型时,生成String类型结果,并基于所述String类型结果对所述待处理文本数据进行解析,得到String类型特征配置列表;
[0036]第二获取模块,用于当所述待处理文本数据的数据类型为XML类型时,生成XML类型结果,并基于所述XML类型结果对所述待处理文本数据进行解析,得到XML类型特征配置列表;
[0037]第三获取模块,用于当所述待处理文本数据的数据类型为JSON类型时,生成JSON类型结果,并基于所述JSON类型结果对所述待处理文本数据进行解析,得到JSON类型特征配置列表。
[0038]优选的,所述提取单元,包括:
[0039]判定模块,用于对所述数据类型结果进行判定;
[0040]第一提取模块,用于当所述数据类型结果为所述String类型结果时,通过预设正则表达式对所述String类型特征配置列表的信息进行正则匹配,并提取符合正则匹配的第一特征数据;
[0041]第二提取模块,用于当所述数据类型结果为所述XML类型结果,通过预设属性表达式对所述XML类型特征配置列表的信息进行计算,得到第二特征数据;
[0042]第三提取模块,用于当所述数据类型结果为所述JSON类型结果时,通过所述预设属性表达式对所述JSON类型特征配置列表的信息进行计算,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待处理文本数据;所述待处理文本数据根据用户需求进行采集得到;对所述待处理文本数据进行数据类型识别,得到数据类型结果,并基于所述数据类型结果,确定对应的特征配置列表;根据所述数据类型结果获取对应的提取规则,并基于所述提取规则从所述特征配置列表中提取特征数据;当所述特征数据符合预设条件时,基于预设摘要规则和符合预设条件的特征数据,生成文本摘要数据;所述预设摘要规则由所述特征配置列表的摘要规则字段确定。2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本数据进行数据类型识别,得到数据类型结果,并基于所述数据类型结果,确定对应的特征配置列表,包括:对所述待处理文本数据进行数据类型识别;当所述待处理文本数据的数据类型为String类型时,生成String类型结果,并基于所述String类型结果对所述待处理文本数据进行解析,得到String类型特征配置列表;当所述待处理文本数据的数据类型为XML类型时,生成XML类型结果,并基于所述XML类型结果对所述待处理文本数据进行解析,得到XML类型特征配置列表;当所述待处理文本数据的数据类型为JSON类型时,生成JSON类型结果,并基于所述JSON类型结果对所述待处理文本数据进行解析,得到JSON类型特征配置列表。3.根据权利要求2所述的方法,其特征在于,所述根据所述数据类型结果获取对应的提取规则,并基于所述提取规则从所述特征配置列表中提取特征数据,包括:对所述数据类型结果进行判定;当所述数据类型结果为所述String类型结果时,通过预设正则表达式和预设特征字段,对所述String类型特征配置列表的信息进行正则匹配,并提取符合正则匹配的第一特征数据;当所述数据类型结果为所述XML类型结果时,通过预设属性表达式对所述XML类型特征配置列表的信息进行计算,得到第一计算结果,并基于所述第一计算结果和所述预设特征字段,确定第二特征数据;当所述数据类型结果为所述JSON类型结果时,通过所述预设属性表达式对所述JSON类型特征配置列表的信息进行计算,得到第二计算结果,并基于所述第二计算结果和所述预设特征字段,确定第三特征数据。4.根据权利要求3所述的方法,其特征在于,所述当所述特征数据符合预设条件时,基于预设摘要规则和符合预设条件特征数据,生成文本摘要数据,包括:当所述第一特征数据不为空值时,从所述String类型特征配置列表中获取第一摘要规则字段,并基于所述第一摘要规则字段和所述第一特征数据,生成第一文本摘要数据;当所述第二特征数据不为空值时,从所述XML类型特征配置列表中获取第二摘要规则字段,并基于所述第二摘要规则字段和所述第二特征数据,生成第二文本摘要数据;当所述第三特征数据不为空值时,从所...

【专利技术属性】
技术研发人员:吴东
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1