当前位置: 首页 > 专利查询>苏州大学专利>正文

一种智能检索方法、装置和计算机可读存储介质制造方法及图纸

技术编号:19342460 阅读:19 留言:0更新日期:2018-11-07 14:00
本发明专利技术实施例公开了一种智能检索方法、装置和计算机可读存储介质,对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各源语句进行处理,得到对应的文档题目;根据源语句及其对应的文档题目,建立文档问答对,并将文档问答对存储于知识库中。按照预设的索引规则,对各问答对进行处理,得到对应的多个语汇单元;当出现待处理的题目时,依据各语汇单元,便可以快速的从知识库中查找出与待处理题目相对应的答案。由于知识库中存储有依据文档信息生成的问答对,其答案的准确性可以得到有效的保障,使得依据该知识库查找出的答案更容易满足用户的需求。并且通过建立语汇单元,有效的提升了检索的效率。

Intelligent retrieval method, device and computer readable storage medium

The embodiment of the present invention discloses an intelligent retrieval method, device and computer readable storage medium, which processes the acquired document information in clauses to obtain multiple source statements, processes each source statement by using the problem generation model after training, and obtains the corresponding document title; and according to the source statement and its corresponding text. File question and answer question pairs, and document question answering pairs are stored in the knowledge base. According to the preset index rules, each question-and-answer pair is processed to get the corresponding multi-lexical units. When there are questions to be processed, according to each lexical unit, the answers corresponding to the questions to be processed can be quickly found from the knowledge base. The accuracy of the answers can be effectively guaranteed by storing the question-and-answer pairs generated from the document information in the knowledge base, which makes it easier to find the answers based on the knowledge base to meet the needs of users. And through the establishment of vocabulary unit, the retrieval efficiency is effectively enhanced.

【技术实现步骤摘要】
一种智能检索方法、装置和计算机可读存储介质
本专利技术涉及信息检索
,特别是涉及一种智能检索方法、装置和计算机可读存储介质。
技术介绍
随着网络的普及,网络上的信息资源越来越丰富。人们遇到问题,经常会通过网络检索的方式,寻找问题的答案。传统问答系统的知识库的数据源来自于网上的问题和回答,有些答案较为随意,其准确性得不到保障。并且知识库中缺少基于文档作为答案的问答对,使得知识库中包含的数据资源相对有限。依据该知识库进行问题的检索时,得到的答案相对有限,用户可能无法得到所需的答案,导致答案检索的准确率较低。可见,如何快速、准确的获取检索结果,是本领域技术人员亟待解决的问题。
技术实现思路
本专利技术实施例的目的是提供一种智能检索方法、装置和计算机可读存储介质,可以快速、准确的获取检索结果。为解决上述技术问题,本专利技术实施例提供一种智能检索方法,包括:对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各所述源语句进行处理,得到对应的文档题目;根据所述源语句及其对应的文档题目,建立文档问答对,并将所述文档问答对存储于知识库中;其中,所述知识库中还包括有历史问答对;按照预设的索引规则,对所述知识库中包含的各问答对进行处理,得到对应的多个语汇单元;依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案。可选的,所述问题生成模型的训练过程包括:获取历史问答对,并将所述历史问答对存储于所述知识库中;利用所述历史问答对训练所述问题生成模型。可选的,所述依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案包括:提取待处理题目中的关键词;从预先建立的各所述语汇单元中查询与所述关键词相对应的目标语汇单元;从所述知识库中获取所述目标语汇单元所对应的候选题目;利用RankSVM模型,对所述候选题目进行相似度排序;选取相似度分数最高的候选题目作为目标题目;并将所述目标题目对应的答案作为所述待处理题目的答案。可选的,所述从预先建立的各所述语汇单元中查询与所述关键词相对应的目标语汇单元包括:判断各语汇单元中是否包含有与所述关键词相匹配的词;若是,则将所述语汇单元作为初始语汇单元;依据各所述初始语汇单元中与所述关键词相匹配的词的个数,确定出各所述初始语汇单元对应的关键词分数;将关键词分数大于预设分数值的初始语汇单元作为目标语汇单元。可选的,所述利用RankSVM模型,对所述候选题目进行相似度排序包括:依据预先设定的特征提取规则,计算出所述待处理题目与各所述候选题目之间的特征参数;将所述特征参数输入到所述RankSVM模型,以得到所述候选题目的相似度排序。本专利技术实施例还提供了一种智能检索装置,包括处理单元、建立单元、得到单元、查找单元;所述处理单元,用于对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各所述源语句进行处理,得到对应的文档题目;所述建立单元,用于根据所述源语句及其对应的文档题目,建立文档问答对,并将所述文档问答对存储于知识库中;其中,所述知识库中还包括有历史问答对;所述得到单元,用于按照预设的索引规则,对所述知识库中包含的各问答对进行处理,得到对应的多个语汇单元;所述查找单元,用于依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案。可选的,还包括存储单元和训练单元;所述存储单元,用于获取历史问答对,并将所述历史问答对存储于所述知识库中;所述训练单元,用于利用所述历史问答对训练所述问题生成模型。可选的,所述查找单元包括提取子单元、查询子单元、获取子单元、计算子单元和选取子单元;所述提取子单元,用于提取待处理题目中的关键词;所述查询子单元,用于从预先建立的各所述语汇单元中查询与所述关键词相对应的目标语汇单元;所述获取子单元,用于从所述知识库中获取所述目标语汇单元所对应的候选题目;所述计算子单元,用于利用RankSVM模型,对所述候选题目进行相似度排序;所述选取子单元,用于选取分数候选题目作为目标题目;并将所述目标题目对应的答案作为所述待处理题目的答案。可选的,所述查询子单元具体用于判断各语汇单元中是否包含有与所述关键词相匹配的词;若是,则将所述语汇单元作为初始语汇单元;依据各所述初始语汇单元中与所述关键词相匹配的词的个数,确定出各所述初始语汇单元对应的关键词分数;将关键词分数大于预设分数值的初始语汇单元作为目标语汇单元。可选的,所述计算子单元具体用于依据预先设定的特征提取规则,计算出所述待处理题目与各所述候选题目之间的特征参数;将所述特征参数输入到所述RankSVM模型,以得到所述候选题目的相似度排序。本专利技术实施例还提供了一种智能检索装置,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现如上所述智能检索方法的步骤。本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述智能检索方法的步骤。由上述技术方案可以看出,对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各所述源语句进行处理,得到对应的文档题目;根据所述源语句及其对应的文档题目,建立文档问答对,并将所述文档问答对存储于知识库中;其中,所述知识库中还包括有历史问答对。通过添加文档信息,生成对应的问答对,极大的丰富了知识库中的数据资源。按照预设的索引规则,对所述知识库中包含的各问答对进行处理,得到对应的多个语汇单元;当出现待处理的题目时,依据各所述语汇单元,便可以快速的从所述知识库中查找出与待处理题目相对应的答案。由于知识库中存储有依据文档信息生成的问答对,其答案的准确性可以得到有效的保障,使得依据该知识库查找出的答案更容易满足用户的需求。并且通过建立语汇单元,为待处理题目的检索提供了索引,有效的提升了检索的效率。附图说明为了更清楚地说明本专利技术实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种智能检索方法的流程图;图2为本专利技术实施例提供的一种问题生成模型的示意图;图3为本专利技术实施例提供的一种获取待处理题目的答案的方法流程图;图4为本专利技术实施例提供的一种智能检索装置的结构示意图;图5为本专利技术实施例提供的一种智能检索装置的硬件结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本专利技术保护范围。为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。接下来,详细介绍本专利技术实施例所提供的一种智能检索方法。图1为本专利技术实施例提供的一种智能检索方法的流程图,该方法包括:S101:对获取的文档信息进行分句处理,以得到多个源语句。在具体实现中,可以利用网络爬虫从不同网站中抓取大规模的文档信息和问答对,以及高质量的人工标记的问答对。其中,问答对中包括有问题(题目)和本文档来自技高网
...

【技术保护点】
1.一种智能检索方法,其特征在于,包括:对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各所述源语句进行处理,得到对应的文档题目;根据所述源语句及其对应的文档题目,建立文档问答对,并将所述文档问答对存储于知识库中;其中,所述知识库中还包括有历史问答对;按照预设的索引规则,对所述知识库中包含的各问答对进行处理,得到对应的多个语汇单元;依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案。

【技术特征摘要】
1.一种智能检索方法,其特征在于,包括:对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各所述源语句进行处理,得到对应的文档题目;根据所述源语句及其对应的文档题目,建立文档问答对,并将所述文档问答对存储于知识库中;其中,所述知识库中还包括有历史问答对;按照预设的索引规则,对所述知识库中包含的各问答对进行处理,得到对应的多个语汇单元;依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案。2.根据权利要求1所述的方法,其特征在于,所述问题生成模型的训练过程包括:获取历史问答对,并将所述历史问答对存储于所述知识库中;利用所述历史问答对训练所述问题生成模型。3.根据权利要求1或2所述的方法,其特征在于,所述依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案包括:提取待处理题目中的关键词;从预先建立的各所述语汇单元中查询与所述关键词相对应的目标语汇单元;从所述知识库中获取所述目标语汇单元所对应的候选题目;利用RankSVM模型,对所述候选题目进行相似度排序;选取相似度分数最高的候选题目作为目标题目;并将所述目标题目对应的答案作为所述待处理题目的答案。4.根据权利要求3所述的方法,其特征在于,所述从预先建立的各所述语汇单元中查询与所述关键词相对应的目标语汇单元包括:判断各语汇单元中是否包含有与所述关键词相匹配的词;若是,则将所述语汇单元作为初始语汇单元;依据各所述初始语汇单元中与所述关键词相匹配的词的个数,确定出各所述初始语汇单元对应的关键词分数;将关键词分数大于预设分数值的初始语汇单元作为目标语汇单元。5.根据权利要求3所述的方法,其特征在于,所述利用RankSVM模型,对所述候选题目进行相似度排序包括:依据预先设定的特征提取规则,计算出所述待处理题目与各所述候选题目之间的特征参数;将所述特征参数输入到所述RankSVM模型,以得到...

【专利技术属性】
技术研发人员:张民董孝政
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1