文本搜索方法及其系统技术方案

技术编号：28837725 阅读：15 留言：0更新日期：2021-06-11 23:35

本发明专利技术公开了文本搜索方法及其系统，包括，采用答案边界模型，通过确定答案的起始和结束为止，从每篇文档中找到可能的候选答案；对候选答案内容的语义进行建模，在语义建模时，对答案的内容进行打分，从另一个角度（除了边界）来衡量了答案的质量。该种文本搜索方法及其系统，采用了单独的答案内容模型来计算出答案内容概率，从而获得答案表示，而没有直接采用边界概率，边界和内容概率可以捕捉到答案的不同方面。

全部详细技术资料下载

【技术实现步骤摘要】
文本搜索方法及其系统
本专利技术涉及文本搜索
，具体为文本搜索方法及其系统。
技术介绍
开放域智能问答系统主要包含两个阶段：第一个阶段是文档检索阶段，主要的作用是将与问题相关的文档从海量的文档里面找出，与问题相关的文档有若干篇。然后将这些若干篇文档输入到多文档阅读理解模型中进行预测，预测出答案所在的文档以及其在文档中准确的位置。真实Web数据上的阅读理解任务，通常与搜索引擎相结合，它要求机器能够在检索回来的多篇文档中找到答案来回答问题。与单文档上的阅读理解任务相比，在多个文档中通常包含多个极具混淆性的答案，因而多文档阅读理解目前还面临极大的挑战。针对这个问题我们提出，可以让从不同文档中找到的候选答案，基于他们的内容表示来进行互相验证，从而能够选出最好的答案，因此我们对此做出改进，提出文本搜索方法及其系统。
技术实现思路
为了解决上述技术问题，本专利技术提供了如下的技术方案：本专利技术文本搜索方法，包括：采用答案边界模型，通过确定答案的起始和结束为止，从每篇文档中找到可能的候选答案；对候选答案内容的语义进行建模，在语义建模时，对答案的内容进行打分，从另一个角度（除了边界）来衡量了答案的质量；通过让每个候选答案根据它们的内容表示对其他候选答案进行验证，候选答案可以根据它们的语义相似性，彼此收集支持信息，从而进一步决定每个候选是否正确。作为本专利技术的优选技术方案，所述给定一个问题Q和一系列由搜索引擎搜索到的文档，找出能够回答这个问题的精准答案，需要...

【技术保护点】
1.文本搜索方法，其特征在于，包括：/n采用答案边界模型，通过确定答案的起始和结束为止，从每篇文档中找到可能的候选答案；/n对候选答案内容的语义进行建模，在语义建模时，对答案的内容进行打分，从另一个角度（除了边界）来衡量了答案的质量；/n通过让每个候选答案根据它们的内容表示对其他候选答案进行验证，候选答案可以根据它们的语义相似性，彼此收集支持信息，从而进一步决定每个候选是否正确。/n

【技术特征摘要】
1.文本搜索方法，其特征在于，包括：
采用答案边界模型，通过确定答案的起始和结束为止，从每篇文档中找到可能的候选答案；
对候选答案内容的语义进行建模，在语义建模时，对答案的内容进行打分，从另一个角度（除了边界）来衡量了答案的质量；
通过让每个候选答案根据它们的内容表示对其他候选答案进行验证，候选答案可以根据它们的语义相似性，彼此收集支持信息，从而进一步决定每个候选是否正确。

2.根据权利要求1所述的文本搜索方法，其特征在于，所述给定一个问题Q和一系列由搜索引擎搜索到的文档，找出能够回答这个问题的精准答案，需要对问题、文档进行建模，以获得它们的向量化表示，包括：
获得问题和文档中的每个词的embedding表示（其中词的embedding和字符embedding的加和），然后使用双向LSTM来进行编码（Encoding）；
用注意力机制进行问题（Q）和文档（P）的匹配，直接使用点积来计算问题中的第t个词和文档中第k个词的相似度：
基于计算出来的相似度矩阵，严格按照AttentionFlowLayer的方式使用了问题到文档和文档到问题的注意力机制，并最终获得了带有问题信息的文档表示，然后，使用了一层双向LSTM来融合上下文信息，对文档中的每个词我们获得了新的表示，在编码和Q-P匹配阶段将每一篇文章独立看待。

3.根据权利要求1所述的文本搜索方法，其特征在于，所述答案边界模型采用PointerNetwork来计算每一个词作为答案开始和结束的概率，和分别是第k个词作为开始和结束的概率，为了使得计算出来的概率能够在不同文档间可比，在使用PointerNetwork之前，是将所有文档的表示连接起来进行注意力机制计算的，边界模型可以通过最小化正确的开始和结束位置的负的对数似然进行优化。

【专利技术属性】
技术研发人员：莫迪，莫桐，
申请(专利权)人：天津禄智技术有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人