一种文本检索方法及装置制造方法及图纸

技术编号:21628939 阅读:20 留言:0更新日期:2019-07-17 11:05
本发明专利技术公开了一种文本检索方法及装置。方法包括:对检索文本进行分词,获得检索词语集合;对于检索词语集合中的每个词语,分别采用TextRank算法计算每个词语的TextRank值;依据各个词语的TextRank值,选取预设数量的词语作为关键词集合;确定关键词集合中各个词语的词向量;获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;计算关键词集合中每一个词语的词向量分别与至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;根据相似度将至少一个待检索文本进行排序输出。本发明专利技术提高了检索结果的准确性。

A Text Retrieval Method and Device

【技术实现步骤摘要】
一种文本检索方法及装置
本专利技术涉及文本检索
,尤其涉及一种文本检索方法及装置。
技术介绍
法律文书类案推送是指输入一篇法律文书,采用一定的算法获得一系列与该输入的法律文书相似的其他文书,借此以快速查找到与当前输入的法律文书相关的历史文书(也称历史案件)。然而目前采用的算法一般是基于一些筛选规则,例如案由相同、适用法条一致等,来检索出与输入的法律文书相似的其他文书,这种检索方式得到的检索结果往往准确性较差。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文本检索方法及装置,技术方案如下:一种文本检索方法,所述方法包括:对检索文本进行分词,获得检索词语集合;对于所述检索词语集合中的每个词语,分别采用TextRank算法计算每个词语的TextRank值;依据各个词语的TextRank值,选取预设数量的词语作为关键词集合;确定所述关键词集合中各个词语的词向量;获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;根据所述相似度将所述至少一个待检索文本进行排序输出。可选地,获取至少一个待检索文本包括:包括:基于所述检索文本,利用文本相似度算法,确定至少一个待检索文本;获取至少一个待检索文本各自对应的文本词语集合包括:对每一个待检索文本进行分词,获得多个词语;从所述多个词语中去除重复词语和停用词,获得候选词语集合;对于所述候选词语集合中的每个词语,分别采用TextRank算法计算每个词语的TextRank值;根据所述候选词语集合中每个词语的TextRank值,从所述候选词语集合中确定出文本词语集合。可选地,所述根据所述相似度将所述至少一个待检索文本进行排序输出,包括:对于任意一个待检索文本,从计算得到的所述关键词集合中每个词语与该待检索文本的文本词语集合中每个词语的相似度中,获取所述关键词集合中每个词语各自对应的最大相似度;从所述关键词集合中每个词语各自对应的最大相似度中,按最大相似度从大到小的顺序,确定预设排序位置处的词语对应的最大相似度作为所述待检索文本的排序得分;依据各个待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。可选地,所述待检索文本包括:待检索文本题目和待检索文本正文。可选地,确定词语的词向量包括:利用预先训练好的词向量模型,确定词语的词向量;其中所述预先训练好的词向量模型包括以下任意一种:word2vector模型、潜在语义分析LSA矩阵分解模型、概率潜语义分析PLSA潜在语义分析概率模型和潜在狄利克雷分布LDA模型。一种文本检索装置,所述装置包括:分词单元,用于对检索文本进行分词,获得检索词语集合;TextRank值计算单元,用于对于所述检索词语集合中的每个词语,分别采用TextRank算法计算每个词语的TextRank值;关键词集合确定单元,用于依据各个词语的TextRank值,选取预设数量的词语作为关键词集合;第一词向量确定单元,用于确定所述关键词集合中各个词语的词向量;文本词语集合获取单元,用于获取至少一个待检索文本各自对应的文本词语集合;第二词向量确定单元,用于确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;相似度计算单元,用于计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;文本排序输出单元,用于根据所述相似度将所述至少一个待检索文本进行排序输出。可选地,所述文本词语集合获取单元包括:待检索文本确定子单元,用于基于所述检索文本,利用文本相似度算法,确定至少一个待检索文本;分词子单元,用于对每一个待检索文本进行分词,获得多个词语;候选词语集合确定子单元,用于从所述多个词语中去除重复词语和停用词,获得候选词语集合;TextRank值计算子单元,用于对于所述候选词语集合中的每个词语,分别采用TextRank算法计算每个词语的TextRank值;文本词语集合确定子单元,用于根据所述候选词语集合中每个词语的TextRank值,从所述候选词语集合中确定出文本词语集合。可选地,所述文本排序输出单元包括:最大相似度确定子单元,用于对于任意一个待检索文本,从计算得到的所述关键词集合中每个词语与该待检索文本的文本词语集合中每个词语的相似度中,获取所述关键词集合中每个词语各自对应的最大相似度;排序得分确定子单元,用于从所述关键词集合中每个词语各自对应的最大相似度中,按最大相似度从大到小的顺序,确定预设排序位置处的词语对应的最大相似度作为所述待检索文本的排序得分;文本排序输出子单元,用于依据各个待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。一种存储介质,其上存储有程序,所述程序被处理器执行时实现前文所述文本检索方法。一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行前文所述文本检索方法。借由上述技术方案,本专利技术提供的文本检索方法及装置中,对检索文本进行分词,获得检索词语集合;对于所述检索词语集合中的每个词语,分别采用TextRank算法计算每个词语的TextRank值;依据各个词语的TextRank值,选取预设数量的词语作为关键词集合;确定所述关键词集合中各个词语的词向量;获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;根据所述相似度将所述至少一个待检索文本进行排序输出。本专利技术通过采用TextRank算法计算检索词语集合中的每个词语的TextRank值,并依据各个词语的TextRank值,选取预设数量的词语作为关键词集合,该得到的关键词集合能够较为准确地表达检索文本的核心内容,排除了一些高频无关词语的干扰,在一定程度上保证了待检索文本的准确性。且,本申请使用词向量表示各词语及词语间的关系,并根据各词语本身以及词语间的关系对待检索文本进行排序,检索结果的准确性进一步提高。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种文本检索方法的流程图;图2示出了本专利技术实施例提供的一种文本检索装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。如图1所示,本专利技术本文档来自技高网...

【技术保护点】
1.一种文本检索方法,其特征在于,所述方法包括:对检索文本进行分词,获得检索词语集合;对于所述检索词语集合中的每个词语,分别采用TextRank算法计算每个词语的TextRank值;依据各个词语的TextRank值,选取预设数量的词语作为关键词集合;确定所述关键词集合中各个词语的词向量;获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;根据所述相似度将所述至少一个待检索文本进行排序输出。

【技术特征摘要】
1.一种文本检索方法,其特征在于,所述方法包括:对检索文本进行分词,获得检索词语集合;对于所述检索词语集合中的每个词语,分别采用TextRank算法计算每个词语的TextRank值;依据各个词语的TextRank值,选取预设数量的词语作为关键词集合;确定所述关键词集合中各个词语的词向量;获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;根据所述相似度将所述至少一个待检索文本进行排序输出。2.根据权利要求1所述的方法,其特征在于,获取至少一个待检索文本包括:包括:基于所述检索文本,利用文本相似度算法,确定至少一个待检索文本;获取至少一个待检索文本各自对应的文本词语集合包括:对每一个待检索文本进行分词,获得多个词语;从所述多个词语中去除重复词语和停用词,获得候选词语集合;对于所述候选词语集合中的每个词语,分别采用TextRank算法计算每个词语的TextRank值;根据所述候选词语集合中每个词语的TextRank值,从所述候选词语集合中确定出文本词语集合。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述相似度将所述至少一个待检索文本进行排序输出,包括:对于任意一个待检索文本,从计算得到的所述关键词集合中每个词语与该待检索文本的文本词语集合中每个词语的相似度中,获取所述关键词集合中每个词语各自对应的最大相似度;从所述关键词集合中每个词语各自对应的最大相似度中,按最大相似度从大到小的顺序,确定预设排序位置处的词语对应的最大相似度作为所述待检索文本的排序得分;依据各个待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。4.根据权利要求3所述的方法,其特征在于,所述待检索文本包括:待检索文本题目和待检索文本正文。5.根据权利要求1所述的方法,其特征在于,确定词语的词向量包括:利用预先训练好的词向量模型,确定词语的词向量;其中所述预先训练好的词向量模型包括以下任意一种:word2vector模型、潜在语义分析LSA矩阵分解模型、概率潜语义分析PLSA潜在语义分析概率模型和潜在狄利克雷分布LDA模型。6.一种文本检索装置,其特征在于,所述装置包括:分词单元,用于对检索文本...

【专利技术属性】
技术研发人员:戴威
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1