一种检索结果提供方法及系统技术方案

技术编号：29330628 阅读：22 留言：0更新日期：2021-07-20 17:48

本发明专利技术提供一种检索结果提供方法及系统，涉及计算机信息处理技术领域。该方法及系统针对摘要模型即序列到序列的文本生成模型能够接收的输入十分有限，而检索结果中与检索文本相关的内容比较少。通过将原文文本拆分为段落，对段落进行检索，使检索返回结果更加地精确。无需受到原文文本段落安排的限制，可以按照与检索文本的相关程度进行排序。而包含与检索文本高度相关的段落文本所在原文的其他不相关文本可以根据相似度不包含于搜索结果中。使用了自然语言模型将文本转换为文本嵌入，并且语义相近的文本在文本嵌入空间距离较小，相似度较高。使用序列到序列的文本生成模型将得到的检索结果做智能表述，在了解检索结果语义的情况下减少阅读时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种检索结果提供方法及系统
本专利技术涉及计算机信息处理
，尤其涉及一种检索结果提供方法及系统。
技术介绍
目前的搜索引擎等无法根据检索结果做单一简短智能表述。当前能对文本生成摘要的语言模型，无法接收长文本的输入，仅能对长文本按语言模型能接收的最大长度进行截断处理仅保留文本前一部分作为输入。搜索引擎仅能返回与检索文本相关的多个文本全文，而将这些文本全文拼接后，长度远超过语言模型能接收输入的最大长度。所以仅能对单一文本分别生成对应摘要，而非检索的多个结果。搜索引擎返回的全文结果中，与检索文本相关的内容大部分情况下仅有一小段相关，而其他均为无意义内容。而该无意义内容无法在检索过程中进行排除。
技术实现思路
本专利技术要解决的技术问题是针对上述现有技术的不足，提供一种检索结果提供方法及系统，结合段落级别的语义搜索与语言模型的使用，为搜索引擎返回的多个检索结果提供单一的摘要对用户进行展示。为解决上述技术问题，本专利技术所采取的技术方案是：一方面，本专利技术提供一种检索结果提供方法，包括以下步骤；步骤1：获取待检索文本，进行数据清洗及文本相关数据的提取；再根据“\n”字符，采用段落切分方法，将待检索原始文本切分成段落级别的文本，并与其他文本相关数据存入文本数据库中；使用爬虫工具，从互联网获取待检索的网页文本，并对网页文本进行清洗去除无关文本；对清洗后的文本，使用正则表达式对文本的标题、发布时间、作者、栏目进行文本相关数据进行提取；再根据“\n”标...

【技术保护点】
1.一种检索结果提供方法，其特征在于：包括以下步骤；/n步骤1：获取待检索文本，进行数据清洗及文本相关数据的提取；再根据“\n”字符，采用段落切分方法，将待检索原始文本切分成段落级别的文本，并与其他文本相关数据存入文本数据库中；/n步骤2：使用逆向完形填空任务在切分后的待检索文本上或其他与待检索文本相关文本数据集上对语言模型进行训练，使语义上相近的文本在使用该语言模型输出的嵌入空间上也相近；/n步骤3：使用摘要数据集以及切分后的待检索文本训练序列到序列文本生成模型，使模型输出能保留输入文本的中心语义的同时缩减输出文本长度；/n步骤4：使用步骤2训练之后的语言模型将步骤1中保存的段落文本转换为对应的文本嵌入表示，并将文本的嵌入表示作为段落文本的属性持久化保存；/n步骤5：将用户输入的检索文本使用语言模型转换为文本嵌入表示；/n步骤6：使用最近邻算法将检索文本的嵌入表示与待检索文本段落的嵌入表示使用相似度指标进行比较，返回n个与检索文本的嵌入表示最相近的段落嵌入表示对应的段落文本；/n步骤7：根据相似度指标对返回的n个段落文本进行排序，与检索文本相似度大的段落文本排在前端，并将段落文本按照...

【技术特征摘要】
1.一种检索结果提供方法，其特征在于：包括以下步骤；
步骤1：获取待检索文本，进行数据清洗及文本相关数据的提取；再根据“\n”字符，采用段落切分方法，将待检索原始文本切分成段落级别的文本，并与其他文本相关数据存入文本数据库中；
步骤2：使用逆向完形填空任务在切分后的待检索文本上或其他与待检索文本相关文本数据集上对语言模型进行训练，使语义上相近的文本在使用该语言模型输出的嵌入空间上也相近；
步骤3：使用摘要数据集以及切分后的待检索文本训练序列到序列文本生成模型，使模型输出能保留输入文本的中心语义的同时缩减输出文本长度；
步骤4：使用步骤2训练之后的语言模型将步骤1中保存的段落文本转换为对应的文本嵌入表示，并将文本的嵌入表示作为段落文本的属性持久化保存；
步骤5：将用户输入的检索文本使用语言模型转换为文本嵌入表示；
步骤6：使用最近邻算法将检索文本的嵌入表示与待检索文本段落的嵌入表示使用相似度指标进行比较，返回n个与检索文本的嵌入表示最相近的段落嵌入表示对应的段落文本；
步骤7：根据相似度指标对返回的n个段落文本进行排序，与检索文本相似度大的段落文本排在前端，并将段落文本按照排序后顺序进行直接拼接；
步骤8：使用步骤3中训练后的序列到序列文本生成模型对拼接后的文本生成摘要，并与其他检索结果相关信息一同进行展示。

2.根据权利要求1所述的一种检索结果提供方法，其特征在于：所述步骤1的具体方法为：
使用爬虫工具，从互联网获取待检索的网页文本，并对网页文本进行清洗去除无关文本；对清洗后的文本，使用正则表达式对文本的标题、发布时间、作者、栏目进行文本相关数据进行提取；再根据“\n”标识符将清洗后的文本切分成段落级别的文本，并且删除空文本；将文本根据段落切分后，每个段落对应原文的索引，以获取原文的其他信息。

3.根据权利要求...

【专利技术属性】
技术研发人员：冯晓硕，万克，陈鸣，李梁，
申请(专利权)人：中国人民解放军九一零五四部队，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人