文本扩增方法、系统、计算机设备及可读存储介质技术方案

技术编号:33915532 阅读:25 留言:0更新日期:2022-06-25 20:10
本发明专利技术提供了一种文本扩增方法,所述方法包括:获取问句,解析问句中的各个实词,标注各个实词的词性;根据各个实词的词性以及各个实词的字数,获取各个实词的关键性排序值;将关键性排序值高于预设阈值的实词作为目标实词;通过预设知识图谱或者预设提取规则,提取目标实词的同义词或者近义词;将提取到的同义词或者近义词作为扩增文本添加到机器阅读理解的通用数据集中,实现文本扩增;本发明专利技术实施例根据关键性排序值提取出问句中的关键信息,提高了机器阅读理解的识别模型给出的答案的准确性;通过关键信息查询词典或者知识图谱的方式对关键信息进行扩充,提高了识别模型给出答案的概率。的概率。的概率。

【技术实现步骤摘要】
文本扩增方法、系统、计算机设备及可读存储介质


[0001]本专利技术涉及数据处理领域,尤其涉及文本扩增方法、系统、计算机设备及可读存储介质。

技术介绍

[0002]机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法使计算机理解文章语义并回答相关问题的技术,机器阅读理解的框架包括编码层、交互层以及输出层。
[0003]现有的机器阅读理解的问答机制,通常是通过问题中的关键词的语义然后在文章中匹配相应的句子,然后进行回答,如何有效的定位到关键词成为问句中的语义理解的关键,关键词的提取也直接影响到机器回答的准确性,在有些问句中,关键词在文章中搜索不到,也会导致无答案的回答样本产生,影响了问答机制的准确性。

技术实现思路

[0004]本专利技术的目的是提供一种文本扩增方法、系统、计算机设备及可读存储介质,用于解决以下问题:机器阅读理解问答机制准确度低。
[0005]本专利技术实施例的一个方面提供了一种文本扩增方法,所述扩增方法包括:
[0006]获取问句,解析所述问句中的各个实词,标注各个所述实词的词性;各个所述实词的词性为名词、动词、形容词以及副词中的一种;
[0007]根据各个所述实词的词性以及各个所述实词的字数,获取各个所述实词的关键性排序值;
[0008]将关键性排序值高于预设阈值的实词作为目标实词;
[0009]通过预设知识图谱或者预设提取规则,提取所述目标实词的同义词或者近义词;
[0010]将提取到的同义词或者近义词作为扩增文本添加到机器阅读理解的通用数据集中,实现文本扩增。
[0011]进一步的,所述根据各个所述实词的词性以及各个所述实词的字数,获取各个所述实词的关键性排序值的步骤,包括:
[0012]获取各个所述实词的预设词性值以及各个实词的字数;
[0013]通过
[0014]P
i
=σ1Q
i
+σ2S
i
[0015]计算各个实词的关键性排序值;其中,所述P
i
表示实词i的关键性排序值,所述Q
i
表示实词i的词性值;所述S
i
表示实词i的字数;σ1表示实词i的词性值所占的权重,σ2表示实词i的字数所占的权重,σ1+σ2=1。
[0016]进一步的,所述通过预设提取规则,提取所述目标实词的同义词或者近义词的步骤包括:
[0017]根据所述目标实词,在第一词典中查询得到多个对应于所述目标实词的第一语
句,从多个第一语句中筛选出符合所述预设提取规则的至少一个第一目标语句,基于所述预设提取规则在所述至少一个第一目标语句中确定第一目标位置,根据所述第一目标位置提取对应于所述目标实词的第一同义词或近义词;
[0018]根据所述目标实词,在第二词典中查询得到多个对应于所述目标实词的第二语句,从多个第二语句中筛选出符合所述预设提取规则的至少一个第二目标语句,基于所述预设提取规则在所述至少一个第二目标语句中确定第二目标位置,根据所述第二目标位置提取对应于所述目标实词的第二同义词或近义词;
[0019]根据聚类算法获取所述目标实词的同义词或者近义词。
[0020]进一步的,所述根据聚类算法获取所述目标实词的同义词或者近义词的步骤,包括:
[0021]将所述目标实词作为聚类中心,分别计算所述第一同义词或近义词与聚类中心之间的距离,以及所述第二同义词或近义词与所述聚类中心之间的距离;
[0022]将所述第一同义词或近义词与聚类中心之间的距离以及所述第二同义词或近义词与所述聚类中心之间的距离进行比对;
[0023]将两个距离中最小的距离对应的同义词或近义词确定为所述目标实词的同义词或者近义词。
[0024]进一步的,所述通过预设知识图谱,提取所述目标实词的同义词或者近义词的方法包括:在所述预设知识图谱中为所述目标实词匹配出多个三元组数据;每个所述三元组数据包括头实体、关系、尾实体,所述目标实词为头实体或尾实体中的一种;筛选出与所述目标实词关联的多个关系,在所述多个三元组数据找出包括多个所述关系的多个目标三元组数据;通过各所述目标三元组数据,确定与所述目标实体对应的目标近义词或目标同义词。
[0025]进一步的,所述提取对应于所述目标实词的同义词或者近义词的步骤之后,还包括:通过汉字的四角号码信息,查询四角号码字典,以得到结构相近的汉字,将结构相近的汉字聚合在一起,以构建形近字字典;对字库中的每个汉字标注拼音,将相同读音的汉字聚合在一起,以构建音近字字典;根据所述问句中的汉字依次查询形近字字典以及音近字字典,以得到问句中的每个汉字的音近字以及形近字;将所述音近字以及形近字作为扩增文本添加到机器阅读理解的通用数据集中。
[0026]进一步的,所述解析所述问句中的各个实词的步骤,包括:通过中文解析库对所述问句中的各个实词进行解析;将解析后的实词作为训练样本加入预训练语言模型进行训练,根据预设规则提取各类词性的实词。
[0027]本专利技术实施例的一个方面又提供了一种文本扩增系统,包括:
[0028]解析模块,用于获取问句,解析所述问句中的各个实词,标注各个所述实词的词性;各个所述实词的词性为名词、动词、形容词以及副词中的一种;
[0029]排序模块,用于根据各个所述实词的词性以及各个所述实词的字数,获取各个所述实词的关键性排序值;将关键性排序值高于预设阈值的实词作为目标实词;
[0030]提取模块,用于通过预设知识图谱或者预设提取规则,提取所述目标实词的同义词或者近义词;将提取到的同义词或者近义词作为扩增文本添加到机器阅读理解的通用数据集中,实现文本扩增。
[0031]本专利技术实施例的一个方面又提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述文本扩增方法的步骤。
[0032]本专利技术实施例的一个方面又提供了一种计算机可读存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述文本扩增方法的步骤。
[0033]现有的机器阅读理解的问答机制中,一般是通过关键词判断问句的语义,在有些问答语句中,关键词无法在文章中配对到对应的语句,会导致无答案样本产生,本专利技术实施例提供的一种文本扩增方法、系统、计算机设备及可读存储介质,通过解析问句中的词性,获取各个实词的关键性排序值,根据各个实词的关键性排序值提取出对应问句中的关键信息,提高了机器阅读理解的识别模型给出答案的准确性。再通过关键信息查询词典或者知识图谱的方式对关键信息进行词义扩充,扩大了机器阅读时搜索范围,相比于现有技术,本专利技术的扩充方法使得关键词能匹配到对应的语句的几率更大,提高了识别模型给出答案的概率,解决了现有的识别模型中在阅读理解后给出的无答案样本较多的问题。
附图说明
[0034本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本扩增方法,用于机器阅读理解,其特征在于,所述方法包括:获取问句,解析所述问句中的各个实词,标注各个所述实词的词性;各个所述实词的词性为名词、动词、形容词以及副词中的一种;根据各个所述实词的词性以及各个所述实词的字数,获取各个所述实词的关键性排序值;将关键性排序值高于预设阈值的实词作为目标实词;通过预设知识图谱或者预设提取规则,提取所述目标实词的同义词或者近义词;将提取到的同义词或者近义词作为扩增文本添加到机器阅读理解的通用数据集中,实现文本扩增。2.根据权利要求1所述的文本扩增方法,其特征在于,所述根据各个所述实词的词性以及各个所述实词的字数,获取各个所述实词的关键性排序值的步骤,包括:获取各个所述实词的预设词性值以及各个实词的字数;通过P
i
=σ1Q
i
+σ2S
i
计算各个实词的关键性排序值;其中,所述P
i
表示实词i的关键性排序值,所述Q
i
表示实词i的词性值;所述S
i
表示实词i的字数;σ1表示实词i的词性值所占的权重,σ2表示实词i的字数所占的权重,σ1+σ2=1。3.根据权利要求1所述的文本扩增方法,其特征在于,所述通过预设提取规则,提取所述目标实词的同义词或者近义词的步骤包括:根据所述目标实词,在第一词典中查询得到多个对应于所述目标实词的第一语句,从多个第一语句中筛选出符合所述预设提取规则的至少一个第一目标语句,基于所述预设提取规则在所述至少一个第一目标语句中确定第一目标位置,根据所述第一目标位置提取对应于所述目标实词的第一同义词或近义词;根据所述目标实词,在第二词典中查询得到多个对应于所述目标实词的第二语句,从多个第二语句中筛选出符合所述预设提取规则的至少一个第二目标语句,基于所述预设提取规则在所述至少一个第二目标语句中确定第二目标位置,根据所述第二目标位置提取对应于所述目标实词的第二同义词或近义词;根据聚类算法获取所述目标实词的同义词或者近义词。4.根据权利要求3所述的文本扩增方法,其特征在于,所述根据聚类算法获取所述目标实词的同义词或者近义词的步骤,包括:将所述目标实词作为聚类中心,分别计算所述第一同义词或近义词与所述聚类中心之间的距离,以及所述第二同义词或近义词与所述聚类中心之间的距离;将所述第一同义词或近义词与所述聚类中心之间的距离以及所述第二同义词或近义词与所述聚...

【专利技术属性】
技术研发人员:朱昱锦徐亮
申请(专利权)人:深圳壹账通科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1