文本扩增方法、系统、计算机设备及可读存储介质技术方案

技术编号：33915532 阅读：25 留言：0更新日期：2022-06-25 20:10

本发明专利技术提供了一种文本扩增方法，所述方法包括：获取问句，解析问句中的各个实词，标注各个实词的词性；根据各个实词的词性以及各个实词的字数，获取各个实词的关键性排序值；将关键性排序值高于预设阈值的实词作为目标实词；通过预设知识图谱或者预设提取规则，提取目标实词的同义词或者近义词；将提取到的同义词或者近义词作为扩增文本添加到机器阅读理解的通用数据集中，实现文本扩增；本发明专利技术实施例根据关键性排序值提取出问句中的关键信息，提高了机器阅读理解的识别模型给出的答案的准确性；通过关键信息查询词典或者知识图谱的方式对关键信息进行扩充，提高了识别模型给出答案的概率。的概率。的概率。

全部详细技术资料下载

【技术实现步骤摘要】
文本扩增方法、系统、计算机设备及可读存储介质

[0001]本专利技术涉及数据处理领域，尤其涉及文本扩增方法、系统、计算机设备及可读存储介质。

技术介绍

[0002]机器阅读理解(Machine Reading Comprehension，MRC)是一种利用算法使计算机理解文章语义并回答相关问题的技术，机器阅读理解的框架包括编码层、交互层以及输出层。
[0003]现有的机器阅读理解的问答机制，通常是通过问题中的关键词的语义然后在文章中匹配相应的句子，然后进行回答，如何有效的定位到关键词成为问句中的语义理解的关键，关键词的提取也直接影响到机器回答的准确性，在有些问句中，关键词在文章中搜索不到，也会导致无答案的回答样本产生，影响了问答机制的准确性。

技术实现思路

[0004]本专利技术的目的是提供一种文本扩增方法、系统、计算机设备及可读存储介质，用于解决以下问题：机器阅读理解问答机制准确度低。
[0005]本专利技术实施例的一个方面提供了一种文本扩增方法，所述扩增方法包括：
[0006]获取问句，解析所述问句中的各个实词，标注各个所述实词的词性；各个所述实词的词性为名词、动词、形容词以及副词中的一种；
[0007]根据各个所述实词的词性以及各个所述实词的字数，获取各个所述实词的关键性排序值；
[0008]将关键性排序值高于预设阈值的实词作为目标实词；
[0009]通过预设知识图谱或者预设提取规则，提取所述目标实词的同义词或者近义词；
[0010]将提取...

【技术保护点】

【技术特征摘要】
1.一种文本扩增方法，用于机器阅读理解，其特征在于，所述方法包括：获取问句，解析所述问句中的各个实词，标注各个所述实词的词性；各个所述实词的词性为名词、动词、形容词以及副词中的一种；根据各个所述实词的词性以及各个所述实词的字数，获取各个所述实词的关键性排序值；将关键性排序值高于预设阈值的实词作为目标实词；通过预设知识图谱或者预设提取规则，提取所述目标实词的同义词或者近义词；将提取到的同义词或者近义词作为扩增文本添加到机器阅读理解的通用数据集中，实现文本扩增。2.根据权利要求1所述的文本扩增方法，其特征在于，所述根据各个所述实词的词性以及各个所述实词的字数，获取各个所述实词的关键性排序值的步骤，包括：获取各个所述实词的预设词性值以及各个实词的字数；通过P
i
＝σ1Q
i
+σ2S
i
计算各个实词的关键性排序值；其中，所述P
i
表示实词i的关键性排序值，所述Q
i
表示实词i的词性值；所述S
i
表示实词i的字数；σ1表示实词i的词性值所占的权重，σ2表示实词i的字数所占的权重，σ1+σ2＝1。3.根据权利要求1所述的文本扩增方法，其特征在于，所述通过预设提取规则，提取所述目标实词的同义词或者近义词的步骤包括：根据所述目标实词，在第一词典中查询得到多个对应于所述目标实词的第一语句，从多个第一语句中筛选出符合所述预设提取规则的至少一个第一目标语句，基于所述预设提取规则在所述至少一个第一目标语句中确定第一目标位置，根据所述第一目标位置提取对应于所述目标实词的第一同义词或近义词；根据所述目标实词，在第二词典中查询得到多个对应于所述目标实词的第二语句，从多个第二语句中筛选出符合所述预设提取规则的至少一个第二目标语句，基于所述预设提取规则在所述至少一个第二目标语句中确定第二目标位置，根据所述第二目标位置提取对应于所述目标实词的第二同义词或近义词；根据聚类算法获取所述目标实词的同义词或者近义词。4.根据权利要求3所述的文本扩增方法，其特征在于，所述根据聚类算法获取所述目标实词的同义词或者近义词的步骤，包括：将所述目标实词作为聚类中心，分别计算所述第一同义词或近义词与所述聚类中心之间的距离，以及所述第二同义词或近义词与所述聚类中心之间的距离；将所述第一同义词或近义词与所述聚类中心之间的距离以及所述第二同义词或近义词与所述聚...

【专利技术属性】
技术研发人员：朱昱锦，徐亮，
申请(专利权)人：深圳壹账通科技服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人