文本搜索方法及其系统技术方案

技术编号:28837725 阅读:15 留言:0更新日期:2021-06-11 23:35
本发明专利技术公开了文本搜索方法及其系统,包括,采用答案边界模型,通过确定答案的起始和结束为止,从每篇文档中找到可能的候选答案;对候选答案内容的语义进行建模,在语义建模时,对答案的内容进行打分,从另一个角度(除了边界)来衡量了答案的质量。该种文本搜索方法及其系统,采用了单独的答案内容模型来计算出答案内容概率,从而获得答案表示,而没有直接采用边界概率,边界和内容概率可以捕捉到答案的不同方面。

【技术实现步骤摘要】
文本搜索方法及其系统
本专利技术涉及文本搜索
,具体为文本搜索方法及其系统。
技术介绍
开放域智能问答系统主要包含两个阶段:第一个阶段是文档检索阶段,主要的作用是将与问题相关的文档从海量的文档里面找出,与问题相关的文档有若干篇。然后将这些若干篇文档输入到多文档阅读理解模型中进行预测,预测出答案所在的文档以及其在文档中准确的位置。真实Web数据上的阅读理解任务,通常与搜索引擎相结合,它要求机器能够在检索回来的多篇文档中找到答案来回答问题。与单文档上的阅读理解任务相比,在多个文档中通常包含多个极具混淆性的答案,因而多文档阅读理解目前还面临极大的挑战。针对这个问题我们提出,可以让从不同文档中找到的候选答案,基于他们的内容表示来进行互相验证,从而能够选出最好的答案,因此我们对此做出改进,提出文本搜索方法及其系统。
技术实现思路
为了解决上述技术问题,本专利技术提供了如下的技术方案:本专利技术文本搜索方法,包括:采用答案边界模型,通过确定答案的起始和结束为止,从每篇文档中找到可能的候选答案;对候选答案内容的语义进行建模,在语义建模时,对答案的内容进行打分,从另一个角度(除了边界)来衡量了答案的质量;通过让每个候选答案根据它们的内容表示对其他候选答案进行验证,候选答案可以根据它们的语义相似性,彼此收集支持信息,从而进一步决定每个候选是否正确。作为本专利技术的优选技术方案,所述给定一个问题Q和一系列由搜索引擎搜索到的文档,找出能够回答这个问题的精准答案,需要对问题、文档进行建模,以获得它们的向量化表示,包括:获得问题和文档中的每个词的embedding表示(其中词的embedding和字符embedding的加和),然后使用双向LSTM来进行编码(Encoding);用注意力机制进行问题(Q)和文档(P)的匹配,直接使用点积来计算问题中的第t个词和文档中第k个词的相似度:基于计算出来的相似度矩阵,严格按照AttentionFlowLayer的方式使用了问题到文档和文档到问题的注意力机制,并最终获得了带有问题信息的文档表示,然后,使用了一层双向LSTM来融合上下文信息,对文档中的每个词我们获得了新的表示,在编码和Q-P匹配阶段将每一篇文章独立看待。作为本专利技术的优选技术方案,所述答案边界模型采用PointerNetwork来计算每一个词作为答案开始和结束的概率,和分别是第k个词作为开始和结束的概率,为了使得计算出来的概率能够在不同文档间可比,在使用PointerNetwork之前,是将所有文档的表示连接起来进行注意力机制计算的,边界模型可以通过最小化正确的开始和结束位置的负的对数似然进行优化。作为本专利技术的优选技术方案,所述采用答案边界模型工作,找到边界分数最大的片段作为最终答案,对候选答案加以表示,从而能够进行跨文档的验证,可以根据概率获得候选答案的表示,训练答案内容模型的方式包括:把原来的答案边界的标签转换为一段连续的答案内容标签,即答案内部的词将会被标记成1,外部的词将会被标记成0,使用交叉熵作为内容模型的损失函数,对每一个词计算了一个它被包含进答案内容的概率,这一概率在答案边界之外,提供了另一个角度来衡量答案的好坏,更进一步的,使用这一概率。作为本专利技术的优选技术方案,所述跨文档的答案验证过程包括:给定从所有文档中抽取出来的候选答案表示,让每一个答案候选关注其他的答案候选,从而能够通过注意力机制来收集支持性的信息;根据注意力的权重来收集的对答案Ai的验证信息,计算Ai的验证分数;为了训练这一个验证模型,将从正确的文档抽取的那个答案作为正确答案,通过验证,能够将改答案选出,损失函数可以定义为该答案的负的对数似然。作为本专利技术的优选技术方案,所述当预测最终答案时,考虑边界分数,内容分数和验证分数,首先从文档i中提取具有最大边界分数的候选答案,边界分数是候选答案的开始位置和结束位置概率的乘积,对于每个候选答案,取它的所有单词的内容概率平均值作为为的内容分数,在计算完候选答案的表示之后,进一步使用验证模型预测的验证得分,最后,根据这三个分数的乘积从所有候选答案中选择出最终的答案。一种文本搜索系统,包括:答案边界模块用于找出答案的边界;答案内容模块用于预测每个单词是否应该包含在内容中;跨文档的答案验证模块用于通过跨文档的答案验证选出最佳答案。本专利技术的有益效果是:该种文本搜索方法及其系统,采用了单独的答案内容模型来计算出答案内容概率,从而获得答案表示,而没有直接采用边界概率,边界和内容概率可以捕捉到答案的不同方面。由于候选答案通常有相似的边界词,如果根据边界概率计算答案表示,很难反映不同候选答案之间的真实差异,相反,对于内容概率,更关注答案的内容部分,这就可以提供更多可辨识的信息来验证出正确的答案,此外,利用内容概率,可以调整每个单词的权重,以便在最终答案表示中不重要的单词(例如“and”和“.”)也得到较低的权重;提出了一个端到端的框架来解决多文档的机器阅读理解任务,在模型中,设计了三个不同的模块,它们分别可以寻找答案边界,对答案内容进行建模并进行跨段落的答案验证,通过变换答案标签的形式,可以有监督地训练这三科模块,而且联合训练可以进一步改进模型的效果,模型能够明显超过基准模型,并且在两个极具挑战性的数据集上实现了目前最先进的性能,而且这两个数据集都是针对真实Web数据上的阅读理解而设计的,因此具有很大的应用价值。附图说明图1是本专利技术文本搜索方法及其系统的结构示意图;图2是本专利技术文本搜索方法及其系统PointerNetwork的结构示意图;图3是本专利技术文本搜索方法及其系统的跨文档答案验证结构示意图;图4是本专利技术文本搜索方法及其系统的其他模型在MS-MARCO测试集上的表现结果图;图5是本专利技术文本搜索方法及其系统的DuReader数据集上的表现结果图;图6是本专利技术文本搜索方法及其系统的MS-MARCO开发集上进行的各模块分析结果图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。实施例:如图1-6所示,本专利技术文本搜索方法,包括:采用答案边界模型,通过确定答案的起始和结束为止,从每篇文档中找到可能的候选答案;对候选答案内容的语义进行建模,在语义建模时,对答案的内容进行打分,从另一个角度(除了边界)来衡量了答案的质量;通过让每个候选答案根据它们的内容表示对其他候选答案进行验证,候选答案可以根据它们的语义相似性,彼此收集支持信息,从而进一步决定每个候选是否正确。其中,所述给定一个问题Q和一系列由搜索引擎搜索到的文档,找出能够回答这个问题的精准答案,需要对问题、文档进行建模,以获得它们的向量化表示,包括:获得问题和文档中的每个词的embedding表示(其中词的embed本文档来自技高网...

【技术保护点】
1.文本搜索方法,其特征在于,包括:/n采用答案边界模型,通过确定答案的起始和结束为止,从每篇文档中找到可能的候选答案;/n对候选答案内容的语义进行建模,在语义建模时,对答案的内容进行打分,从另一个角度(除了边界)来衡量了答案的质量;/n通过让每个候选答案根据它们的内容表示对其他候选答案进行验证,候选答案可以根据它们的语义相似性,彼此收集支持信息,从而进一步决定每个候选是否正确。/n

【技术特征摘要】
1.文本搜索方法,其特征在于,包括:
采用答案边界模型,通过确定答案的起始和结束为止,从每篇文档中找到可能的候选答案;
对候选答案内容的语义进行建模,在语义建模时,对答案的内容进行打分,从另一个角度(除了边界)来衡量了答案的质量;
通过让每个候选答案根据它们的内容表示对其他候选答案进行验证,候选答案可以根据它们的语义相似性,彼此收集支持信息,从而进一步决定每个候选是否正确。


2.根据权利要求1所述的文本搜索方法,其特征在于,所述给定一个问题Q和一系列由搜索引擎搜索到的文档,找出能够回答这个问题的精准答案,需要对问题、文档进行建模,以获得它们的向量化表示,包括:
获得问题和文档中的每个词的embedding表示(其中词的embedding和字符embedding的加和),然后使用双向LSTM来进行编码(Encoding);
用注意力机制进行问题(Q)和文档(P)的匹配,直接使用点积来计算问题中的第t个词和文档中第k个词的相似度:
基于计算出来的相似度矩阵,严格按照AttentionFlowLayer的方式使用了问题到文档和文档到问题的注意力机制,并最终获得了带有问题信息的文档表示,然后,使用了一层双向LSTM来融合上下文信息,对文档中的每个词我们获得了新的表示,在编码和Q-P匹配阶段将每一篇文章独立看待。


3.根据权利要求1所述的文本搜索方法,其特征在于,所述答案边界模型采用PointerNetwork来计算每一个词作为答案开始和结束的概率,和分别是第k个词作为开始和结束的概率,为了使得计算出来的概率能够在不同文档间可比,在使用PointerNetwork之前,是将所有文档的表示连接起来进行注意力机制计算的,边界模型可以通过最小化正确的开始和结束位置的负的对数似然进行优化。

【专利技术属性】
技术研发人员:莫迪莫桐
申请(专利权)人:天津禄智技术有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1