文本检索方法及装置制造方法及图纸

技术编号:21628932 阅读:21 留言:0更新日期:2019-07-17 11:05
本发明专利技术公开了一种文本检索方法及装置,可以对用户输入的检索语句进行分词,获得检索词语集合;确定所述检索词语集合中的各词语的词向量;对至少一个待检索文本:计算从该待检索文本中确定的文本词语集合中每一个词语的词向量与所述检索词语集合中每一个词语的词向量的相似度;根据所述相似度将所述至少一个待检索文本进行排序输出。由于本发明专利技术使用词向量表示各词语及词语间的关系,因此本发明专利技术可以根据各词语本身以及词语间的关系对待检索文本进行排序,准确率较高。

Text Retrieval Method and Device

【技术实现步骤摘要】
文本检索方法及装置
本专利技术涉及文本检索
,尤其涉及文本检索方法及装置。
技术介绍
处于各种需要,用户往往需要通过输入检索语句对文本进行检索,例如:通过输入“老板不还钱”对裁判文书进行检索。现有的文本检索方法在对用户输入的检索语句进行分词得到多个词语后,确定待检索文本中出现上述多个词语中各词语的次数,基于该次数对各待检索文本进行排序输出。但是,本申请专利技术人在实现本专利技术的过程中发现:现有的文本检索方法的准确率较低,即:现有技术常将与用户输入的检索语句不相关的文本排列在前面作为检索结果。例如:用户输入“老板不还钱”,现有技术将该检索语句分为“老板”、“不”和“还钱”三个词语。由于卖淫案类的裁判文书中经常出现大量的“老板”和“不”一词,因此现有技术容易将卖淫案类的裁判文书排列在签名,造成检索结果的不准确。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文本检索方法及装置,技术方案如下:一种文本检索方法,包括:对用户输入的检索语句进行分词,获得检索词语集合;确定所述检索词语集合中的各词语的词向量;对至少一个待检索文本:计算从该待检索文本中确定的文本词语集合中每一个词语的词向量与所述检索词语集合中每一个词语的词向量的相似度;根据所述相似度将所述至少一个待检索文本进行排序输出。可选的,所述根据所述相似度将所述至少一个待检索文本进行排序输出,包括:对所述至少一个待检索文本中的每个待检索文本:从该待检索文本的文本词语集合中每个词语各自对应的至少一个相似度中,确定出每个词语各自对应的最大相似度,从每个词语各自对应的最大相似度中确定出取值最小的最大相似度并作为该检索文本的排序得分;以各排序得分为排序依据对所述至少一个待检索文本进行排序输出。可选的,对任一待检索文本:从该待检索文本中确定文本词语集合的过程包括:对该待检索文本进行分词,获得多个词语;从所述多个词语中去除重复词语和停用词,获得第一词语集合;对所述第一词语集合中的每个词语:确定该词语的左侧熵值和该词语的右侧熵值的熵值和;根据所述熵值和从所述第一词语集合中确定出文本词语集合。可选的,所述待检索文本包括:待检索文本题目和待检索文本正文。一种文本检索装置,包括:分词单元、向量确定单元、相似度计算单元和文本排序单元,所述分词单元,用于对用户输入的检索语句进行分词,获得检索词语集合;所述向量确定单元,用于确定所述检索词语集合中的各词语的词向量;所述相似度计算单元,用于对至少一个待检索文本:计算从该待检索文本中确定的文本词语集合中每一个词语的词向量与所述检索词语集合中每一个词语的词向量的相似度;所述文本排序单元,用于根据所述相似度将所述至少一个待检索文本进行排序输出。可选的,所述文本排序单元包括:得分确定子单元和排序子单元,所述得分确定子单元,用于对所述至少一个待检索文本中的每个待检索文本:从该待检索文本的文本词语集合中每个词语各自对应的至少一个相似度中,确定出每个词语各自对应的最大相似度,从每个词语各自对应的最大相似度中确定出取值最小的最大相似度并作为该待检索文本的排序得分;所述排序子单元,用于以各排序得分为排序依据对所述至少一个待检索文本进行排序输出。可选的,所述装置还包括:文本预处理单元,用于对任一待检索文本:从该待检索文本中确定文本词语集合,所述文本预处理单元包括:分词子单元、删词子单元、熵值计算子单元和集合确定子单元,所述分词子单元,用于对该待检索文本进行分词,获得多个词语;所述删词子单元,用于从所述多个词语中去除重复词语和停用词,获得第一词语集合;所述熵值计算子单元,用于对所述第一词语集合中的每个词语:确定该词语的左侧熵值和该词语的右侧熵值的熵值和;所述集合确定子单元,用于根据所述熵值和从所述第一词语集合中确定出文本词语集合。可选的,所述待检索文本包括:待检索文本题目和待检索文本正文。一种存储介质,其上存储有程序,所述程序被处理器执行时实现上述的任一种文本检索方法。一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的任一种文本检索方法。借由上述技术方案,本专利技术提供的文本检索方法及装置,可以对用户输入的检索语句进行分词,获得检索词语集合;确定所述检索词语集合中的各词语的词向量;对至少一个待检索文本:计算从该待检索文本中确定的文本词语集合中每一个词语的词向量与所述检索词语集合中每一个词语的词向量的相似度;根据所述相似度将所述至少一个待检索文本进行排序输出。由于本专利技术使用词向量表示各词语及词语间的关系,因此本专利技术可以根据各词语本身以及词语间的关系对待检索文本进行排序,准确率较高。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种文本检索方法的流程图;图2示出了本专利技术实施例提供的一种文本检索装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。如图1所示,本专利技术实施例提供的一种文本检索方法,可以包括:S100、对用户输入的检索语句进行分词,获得检索词语集合;S200、确定所述检索词语集合中的各词语的词向量;具体的,本专利技术可以使用多种词向量模型确定词语的词向量,下面示例性提供其中几种:word2vector模型、LSA矩阵分解模型、PLSA潜在语义分析概率模型和LDA文档生成模型。在实际应用中,本专利技术可以预先对词向量模型进行训练,例如:通过一定数量的文本对词向量模型进行训练。S300、对至少一个待检索文本:计算从该待检索文本中确定的文本词语集合中每一个词语的词向量与所述检索词语集合中每一个词语的词向量的相似度;其中,本专利技术实施例中的待检索文本的数量可以不低于第一数量,可选的,第一数量可以1000万。本专利技术实施例中的待检索文本可以为各种类型和形式的文本,例如:学术论文、专利、法律文书等。在本专利技术的一个可选实施例中,待检索文本可以包括:待检索文本题目和待检索文本正文。可以理解的是,题目中包含的词语对于待检索文本而言十分重要,因此本专利技术将题目和正文一起作为待检索文本,可以从题目和正文中确定文本词语集合,更加全面和准确。其中,对任一待检索文本:从该待检索文本中确定文本词语集合的过程可以包括:对该待检索文本进行分词,获得多个词语;从所述多个词语中去除重复词语和停用词,获得第一词语集合;对所述第一词语集合中的每个词语:确定该词语的左侧熵值和该词语的右侧熵值的熵值和;根据所述熵值和从所述第一词语集合中确定出文本词语集合。其中,对待检索文本进行分词的方式可以与对用户输入的检索语句进行分词的方式相同本文档来自技高网...

【技术保护点】
1.一种文本检索方法,其特征在于,包括:对用户输入的检索语句进行分词,获得检索词语集合;确定所述检索词语集合中的各词语的词向量;对至少一个待检索文本:计算从该待检索文本中确定的文本词语集合中每一个词语的词向量与所述检索词语集合中每一个词语的词向量的相似度;根据所述相似度将所述至少一个待检索文本进行排序输出。

【技术特征摘要】
1.一种文本检索方法,其特征在于,包括:对用户输入的检索语句进行分词,获得检索词语集合;确定所述检索词语集合中的各词语的词向量;对至少一个待检索文本:计算从该待检索文本中确定的文本词语集合中每一个词语的词向量与所述检索词语集合中每一个词语的词向量的相似度;根据所述相似度将所述至少一个待检索文本进行排序输出。2.根据权利要求1所述的方法,其特征在于,所述根据所述相似度将所述至少一个待检索文本进行排序输出,包括:对所述至少一个待检索文本中的每个待检索文本:从该待检索文本的文本词语集合中每个词语各自对应的至少一个相似度中,确定出每个词语各自对应的最大相似度,从每个词语各自对应的最大相似度中确定出取值最小的最大相似度并作为该检索文本的排序得分;以各排序得分为排序依据对所述至少一个待检索文本进行排序输出。3.根据权利要求1或2所述的方法,其特征在于,对任一待检索文本:从该待检索文本中确定文本词语集合的过程包括:对该待检索文本进行分词,获得多个词语;从所述多个词语中去除重复词语和停用词,获得第一词语集合;对所述第一词语集合中的每个词语:确定该词语的左侧熵值和该词语的右侧熵值的熵值和;根据所述熵值和从所述第一词语集合中确定出文本词语集合。4.根据权利要求3所述的方法,其特征在于,所述待检索文本包括:待检索文本题目和待检索文本正文。5.一种文本检索装置,其特征在于,包括:分词单元、向量确定单元、相似度计算单元和文本排序单元,所述分词单元,用于对用户输入的检索语句进行分词,获得检索词语集合;所述向量确定单元,用于确定所述检索词语集合中的各词语的词向量;所述相似度计算单元,用于对至少一个待检索文本:计算从该待检索文本中确定的文本...

【专利技术属性】
技术研发人员:戴威
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1