一种检索结果提供方法及系统技术方案

技术编号:29330628 阅读:22 留言:0更新日期:2021-07-20 17:48
本发明专利技术提供一种检索结果提供方法及系统,涉及计算机信息处理技术领域。该方法及系统针对摘要模型即序列到序列的文本生成模型能够接收的输入十分有限,而检索结果中与检索文本相关的内容比较少。通过将原文文本拆分为段落,对段落进行检索,使检索返回结果更加地精确。无需受到原文文本段落安排的限制,可以按照与检索文本的相关程度进行排序。而包含与检索文本高度相关的段落文本所在原文的其他不相关文本可以根据相似度不包含于搜索结果中。使用了自然语言模型将文本转换为文本嵌入,并且语义相近的文本在文本嵌入空间距离较小,相似度较高。使用序列到序列的文本生成模型将得到的检索结果做智能表述,在了解检索结果语义的情况下减少阅读时间。

【技术实现步骤摘要】
一种检索结果提供方法及系统
本专利技术涉及计算机信息处理
,尤其涉及一种检索结果提供方法及系统。
技术介绍
目前的搜索引擎等无法根据检索结果做单一简短智能表述。当前能对文本生成摘要的语言模型,无法接收长文本的输入,仅能对长文本按语言模型能接收的最大长度进行截断处理仅保留文本前一部分作为输入。搜索引擎仅能返回与检索文本相关的多个文本全文,而将这些文本全文拼接后,长度远超过语言模型能接收输入的最大长度。所以仅能对单一文本分别生成对应摘要,而非检索的多个结果。搜索引擎返回的全文结果中,与检索文本相关的内容大部分情况下仅有一小段相关,而其他均为无意义内容。而该无意义内容无法在检索过程中进行排除。
技术实现思路
本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种检索结果提供方法及系统,结合段落级别的语义搜索与语言模型的使用,为搜索引擎返回的多个检索结果提供单一的摘要对用户进行展示。为解决上述技术问题,本专利技术所采取的技术方案是:一方面,本专利技术提供一种检索结果提供方法,包括以下步骤;步骤1:获取待检索文本,进行数据清洗及文本相关数据的提取;再根据“\n”字符,采用段落切分方法,将待检索原始文本切分成段落级别的文本,并与其他文本相关数据存入文本数据库中;使用爬虫工具,从互联网获取待检索的网页文本,并对网页文本进行清洗去除无关文本;对清洗后的文本,使用正则表达式对文本的标题、发布时间、作者、栏目进行文本相关数据进行提取;再根据“\n”标识符将清洗后的文本切分成段落级别的文本,并且删除空文本;将文本根据段落切分后,每个段落对应原文的索引,以获取原文的其他信息;步骤2:使用逆向完形填空任务在切分后的待检索文本上或其他与待检索文本相关文本数据集上对语言模型进行训练,使语义上相近的文本在使用该语言模型输出的嵌入空间上也相近;从文本数据库中随机选取多个段落文本,同时随机选取其中一个段落中的一个句子,并将该句子从该段落中删除;使用BERT语言模型对该句子和所有段落文本生成语义嵌入,并使该句子与所在的段落文本的嵌入之间的距离最近,然后使用梯度下降算法对BERT语言模型中的参数进行更新;多次重复该步骤直至遍历待检索文本N次,保存BERT语言模型;步骤3:使用摘要数据集以及切分后的待检索文本训练序列到序列文本生成模型,使模型输出能保留输入文本的中心语义的同时缩减输出文本长度;使用CNN-dailymail摘要数据集对序列到序列文本生成模型进行训练,使序列到序列文本生成模型对文本输入生成的摘要与数据集中提供的摘要一致;并选取待检索文本中概括性语句作为摘要对序列到序列文本生成模型继续训练,保存序列到序列文本生成模型;步骤4:使用步骤2训练之后的语言模型将步骤1中保存的段落文本转换为对应的文本嵌入表示,并将文本的嵌入表示作为段落文本的属性持久化保存;步骤5:将用户输入的检索文本使用语言模型转换为文本嵌入表示;步骤6:使用最近邻算法将检索文本的嵌入表示与待检索文本段落的嵌入表示使用相似度指标进行比较,返回n个与检索文本的嵌入表示最相近的段落嵌入表示对应的段落文本;步骤7:根据相似度指标对返回的n个段落文本进行排序,与检索文本相似度大的段落文本排在前端,并将段落文本按照排序后顺序进行直接拼接;步骤8:使用步骤3中训练后的序列到序列文本生成模型对拼接后的文本生成摘要,并与其他检索结果相关信息一同进行展示。另一方面,本专利技术还提供一种检索结果提供系统,包括数据存储模块、文本切分模块、文本嵌入计算模块、最近邻搜索模块以及文本摘要模块;所述数据存储模块,用于存储待检索的原文文本、段落文本、文本嵌入以及文章标题、文章作者以及发布日期;所述文本切分模块,用于将待检索的原文本切分为段落级别的段落文本;所述文本嵌入计算模块,用于将段落级别的段落文本与检索文本转化为文本嵌入,其中语义上相近的文本在该嵌入的空间中也相近;所述最近邻搜索模块,用于召回与检索文本的嵌入最相近的几条段落级别的文本;所述文本摘要模块,用于将检索结果转化为保留检索结果中心语义但长度变短的文本。优选地,所述数据存储模块使用pandas函数库中的DataFrame结构进行存储数据,并使用csv文件进行持久化保存,对每个文本分配各自唯一的数字作为索引。采用上述技术方案所产生的有益效果在于:本专利技术提供一种检索结果提供方法及系统,能为多个检索结果提供单一文本表述,节省阅读时间。目前的检索引擎对文本进行检索时,大多包含来自多个信息源的语义重复内容,即便为每个检索结果提供对应的摘要,也会有大量的语义上的冗余。通过提供单一的文本表述,能减少检索结果中重复内容。并且通过段落级别的检索能减少无关信息的出现,进一步减少阅读时间。附图说明图1为本专利技术实施例提供的一种检索结果提供方法的流程图;图2为本专利技术实施例提供的一种检索结果提供系统的结构框图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。本专利技术的系统及方法,针对摘要模型即序列到序列的文本生成模型能够接收的输入十分有限,而检索结果全文中与检索文本相关的内容仅有少部分。通过将原文文本拆分为段落,对段落进行检索,使检索返回结果更加地精确。无需受到原文文本段落安排的限制,可以按照与检索文本的相关程度进行排序。而包含与检索文本高度相关的段落文本所在原文的其他不相关文本可以根据相似度不包含于搜索结果中。本专利技术使用了自然语言模型,该模型被用于将文本转换为文本嵌入。并且语义相近的文本在文本嵌入空间距离较小,相似度较高。该模型使用逆向完形填空等任务在待检索文本或其他类似文本上进行训练。逆向完形填空任务具体地即为在训练文本中任意挑选连续的几条语句,选择挑选的语句中一条并删去。同时任意挑选其他不相关语句,使被删去语句对应的文本嵌入与原文本中其他语句的文本嵌入距离小于被删去语句对应的文本嵌入与其他不相关语句的文本嵌入的距离。具体公式如下所示。该文本嵌入为固定长度的一维向量,不随输入文本的长度的改变而改变。本专利技术使用了序列到序列的文本生成模型将得到的检索结果做智能表述。该文本生成模型使用摘要数据集以及待检索文本进行训练,能根据输入的长文本输出与输入文本中心语义相近的短文本,并且该生成的文本中包含输入文本中不存在的语句。该序列到序列的文本生成模型能对检索结果做智能表述,在了解检索结果语义的情况下减少阅读时间。本实施例采用本专利技术的检索结果提供方法及系统实现检索结果的展示,该方法及系统使用Python语言进行实现,运行于Linux系统。本实施例中,一种检索结果提供方法,如图1所示,包括以下步骤;步骤1:获取待检索文本,进行数据清洗及文本相关数据的提取;再根据“\n”字符,采用段落切分方法,将待检索原始文本切分成段落级别的文本,并与其他文本相本文档来自技高网...

【技术保护点】
1.一种检索结果提供方法,其特征在于:包括以下步骤;/n步骤1:获取待检索文本,进行数据清洗及文本相关数据的提取;再根据“\n”字符,采用段落切分方法,将待检索原始文本切分成段落级别的文本,并与其他文本相关数据存入文本数据库中;/n步骤2:使用逆向完形填空任务在切分后的待检索文本上或其他与待检索文本相关文本数据集上对语言模型进行训练,使语义上相近的文本在使用该语言模型输出的嵌入空间上也相近;/n步骤3:使用摘要数据集以及切分后的待检索文本训练序列到序列文本生成模型,使模型输出能保留输入文本的中心语义的同时缩减输出文本长度;/n步骤4:使用步骤2训练之后的语言模型将步骤1中保存的段落文本转换为对应的文本嵌入表示,并将文本的嵌入表示作为段落文本的属性持久化保存;/n步骤5:将用户输入的检索文本使用语言模型转换为文本嵌入表示;/n步骤6:使用最近邻算法将检索文本的嵌入表示与待检索文本段落的嵌入表示使用相似度指标进行比较,返回n个与检索文本的嵌入表示最相近的段落嵌入表示对应的段落文本;/n步骤7:根据相似度指标对返回的n个段落文本进行排序,与检索文本相似度大的段落文本排在前端,并将段落文本按照排序后顺序进行直接拼接;/n步骤8:使用步骤3中训练后的序列到序列文本生成模型对拼接后的文本生成摘要,并与其他检索结果相关信息一同进行展示。/n...

【技术特征摘要】
1.一种检索结果提供方法,其特征在于:包括以下步骤;
步骤1:获取待检索文本,进行数据清洗及文本相关数据的提取;再根据“\n”字符,采用段落切分方法,将待检索原始文本切分成段落级别的文本,并与其他文本相关数据存入文本数据库中;
步骤2:使用逆向完形填空任务在切分后的待检索文本上或其他与待检索文本相关文本数据集上对语言模型进行训练,使语义上相近的文本在使用该语言模型输出的嵌入空间上也相近;
步骤3:使用摘要数据集以及切分后的待检索文本训练序列到序列文本生成模型,使模型输出能保留输入文本的中心语义的同时缩减输出文本长度;
步骤4:使用步骤2训练之后的语言模型将步骤1中保存的段落文本转换为对应的文本嵌入表示,并将文本的嵌入表示作为段落文本的属性持久化保存;
步骤5:将用户输入的检索文本使用语言模型转换为文本嵌入表示;
步骤6:使用最近邻算法将检索文本的嵌入表示与待检索文本段落的嵌入表示使用相似度指标进行比较,返回n个与检索文本的嵌入表示最相近的段落嵌入表示对应的段落文本;
步骤7:根据相似度指标对返回的n个段落文本进行排序,与检索文本相似度大的段落文本排在前端,并将段落文本按照排序后顺序进行直接拼接;
步骤8:使用步骤3中训练后的序列到序列文本生成模型对拼接后的文本生成摘要,并与其他检索结果相关信息一同进行展示。


2.根据权利要求1所述的一种检索结果提供方法,其特征在于:所述步骤1的具体方法为:
使用爬虫工具,从互联网获取待检索的网页文本,并对网页文本进行清洗去除无关文本;对清洗后的文本,使用正则表达式对文本的标题、发布时间、作者、栏目进行文本相关数据进行提取;再根据“\n”标识符将清洗后的文本切分成段落级别的文本,并且删除空文本;将文本根据段落切分后,每个段落对应原文的索引,以获取原文的其他信息。


3.根据权利要求...

【专利技术属性】
技术研发人员:冯晓硕万克陈鸣李梁
申请(专利权)人:中国人民解放军九一零五四部队
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1