从自然语言文本中自动提取答案的方法、系统及存储介质技术方案

技术编号：26171129 阅读：44 留言：0更新日期：2020-10-31 13:41

本发明专利技术公开了一种从自然语言文本中自动提取答案的方法、系统及存储介质，所述方法包括以下步骤：将自然语言文本切分为多个段落；分别获取各个段落的问题匹配特征向量；将各段落的问题匹配特征向量输入初筛分类模型，筛选得到问题相关段落；利用阅读理解模型，分别获取各个问题相关段落中包含的疑似答案及其疑似概率；并选取出疑似概率最高的疑似答案，判断该疑似答案的疑似概率是否高于预设的疑似阈值，若是，将该疑似答案作为问题的答案进行输出。本发明专利技术可以对任意长度文本进行问题答案的提取，不会出现计算量按平方规律增长的情况，有效地提高了计算机的数据处理速度，提高了答案提取的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
从自然语言文本中自动提取答案的方法、系统及存储介质
本专利技术涉及自然语言处理
，尤其涉及一种从自然语言文本中自动提取答案的方法、系统及存储介质。
技术介绍
从自然语言文本中自动化提取答案的定义是：首先给出一个自然语言文本，同时给出一个自然语言表达的问题；如果问题的答案在该自然语言文本中存在，那么系统可以自动提取出此问题的答案，如果该自然语言文本中没有问题的答案，则系统可以判断出在此条件下问题无法回答。从非结构化自然文本中提取答案的技术可以利用海量的非结构化文本获取相关问题的答案，在知识库建设、智能客服、法律咨询等多方面均有很大的应用前景。2015年以来，由于基于深度学习的机器阅读理解模型的提出，以及一系列大规模机器阅读理解数据集的公布，如CNN&DailyMail、SQuAD、MSMARCO等。使得从非结构化文本中提取答案的技术逐渐被关注，成为了学术界和工业界的研究热点。目前从非结构化文本中提取答案都是基于神经网络技术，结构上包含三个部分：特征提取、问题/文本交互、答案提取。以BERT模型的提...

【技术保护点】
1.一种从自然语言文本中自动提取答案的方法，其特征在于，包括以下步骤：/nS1，将自然语言文本切分为多个段落；/nS2，分别获取各个段落的问题匹配特征向量；/nS3，将各段落的问题匹配特征向量输入初筛分类模型，筛选得到问题相关段落；/nS4，利用阅读理解模型，分别获取各个问题相关段落中包含的疑似答案及其疑似概率；/n并选取出疑似概率最高的疑似答案，判断该疑似答案的疑似概率是否高于预设的疑似阈值，若是，将该疑似答案作为问题的答案进行输出。/n

【技术特征摘要】
1.一种从自然语言文本中自动提取答案的方法，其特征在于，包括以下步骤：
S1，将自然语言文本切分为多个段落；
S2，分别获取各个段落的问题匹配特征向量；
S3，将各段落的问题匹配特征向量输入初筛分类模型，筛选得到问题相关段落；
S4，利用阅读理解模型，分别获取各个问题相关段落中包含的疑似答案及其疑似概率；
并选取出疑似概率最高的疑似答案，判断该疑似答案的疑似概率是否高于预设的疑似阈值，若是，将该疑似答案作为问题的答案进行输出。

2.根据权利要求1所述的从自然语言文本中自动提取答案的方法，其特征在于，所述步骤S1中，将自然语言文本切分为多个段落时，每个段落包含的字符数不超过预设的字符数阈值。

3.根据权利要求2所述的从自然语言文本中自动提取答案的方法，其特征在于，所述字符数阈值根据计算机的GPU显存容量来定。

4.根据权利要求1所述的从自然语言文本中自动提取答案的方法，其特征在于，所述步骤S2中获取各段落的问题匹配特征向量的具体步骤为：
分别将各段落的文本内容与问题进行交互，提取得到各个段落的与问题相关的语义特征；
根据各个段落的语义特征，对应生成各个段落的问题匹配特征向量。

5.根据权利要求4所述的从自然语言文本中自动提取答案的方法，其特征在于，所述语义特征包括段落内容与问题之间的词汇重合度和字符重合度，问题词汇在段落中的召回率，段落与问题的编辑距离，段落与问题的词汇相似度。

6.根据权利要求4所述的从自然语言文本中自动提取答案的方法，其特征在于，将段落的文本内容与问题进行交互，提取得到段落的与问题相关的语义特征。

7.根据权利要求1所述的从自然语言文本中自动提取答案的方法，其特征在于，所述步骤S3中筛选问题相关段落具体步骤为：
构建初筛分类模型；
将各个段落的问题匹配特征向量输入初筛分类模型，得到其各自的用于评判其段落内容与问题相关度的相关性分数；
剔除相关性分数低于预设的相关性阈值的段落，并将剩余的相关性分数高于预设的相关性阈值的段落作为问题相关段落。

8.根据权利要求7所述的从自然语言文本中自动提取答案的方法，其特征在于，所述初筛分类模型是基于GBDT的二分类模型。

9.根据权利要求1所述的从自然语言文本中自动提取答案的方法，其特征在于，所述步骤S4中利用阅读理解模型，分别获取各个问题相关段落中包含的疑似答案及其疑似概率的具体步骤为：
分别将各个问题相关段落与问题进行拼接，得到模型输入序列；
分别计算各个问题相关段落的人工特征；
将各个问题相关段落的模型输入序列和人工特征输入阅读理解模型，得到各个问题相关段落包含答案的...

【专利技术属性】
技术研发人员：侯聪，陈运文，纪达麒，桂洪冠，文敏，白良俊，
申请(专利权)人：达而观信息科技上海有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人