一种文本检索方法及装置制造方法及图纸

技术编号：21628939 阅读：20 留言：0更新日期：2019-07-17 11:05

本发明专利技术公开了一种文本检索方法及装置。方法包括：对检索文本进行分词，获得检索词语集合；对于检索词语集合中的每个词语，分别采用TextRank算法计算每个词语的TextRank值；依据各个词语的TextRank值，选取预设数量的词语作为关键词集合；确定关键词集合中各个词语的词向量；获取至少一个待检索文本各自对应的文本词语集合，并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量；计算关键词集合中每一个词语的词向量分别与至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度；根据相似度将至少一个待检索文本进行排序输出。本发明专利技术提高了检索结果的准确性。

A Text Retrieval Method and Device

全部详细技术资料下载

【技术实现步骤摘要】
一种文本检索方法及装置
本专利技术涉及文本检索
，尤其涉及一种文本检索方法及装置。
技术介绍
法律文书类案推送是指输入一篇法律文书，采用一定的算法获得一系列与该输入的法律文书相似的其他文书，借此以快速查找到与当前输入的法律文书相关的历史文书(也称历史案件)。然而目前采用的算法一般是基于一些筛选规则，例如案由相同、适用法条一致等，来检索出与输入的法律文书相似的其他文书，这种检索方式得到的检索结果往往准确性较差。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文本检索方法及装置，技术方案如下：一种文本检索方法，所述方法包括：对检索文本进行分词，获得检索词语集合；对于所述检索词语集合中的每个词语，分别采用TextRank算法计算每个词语的TextRank值；依据各个词语的TextRank值，选取预设数量的词语作为关键词集合；确定所述关键词集合中各个词语的词向量；获取至少一个待检索文本各自对应的文本词语集合，并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量；计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度；根据所述相似度将所述至少一个待检索文本进行排序输出。可选地，获取至少一个待检索文本包括：包括：基于所述检索文本，利用文本相似度算法，确定至少一个待检索文本；获取至少一个待检索文本各自对应的文本词语集合包括：对每一个待检索文本进行分词，获得多个词语；从所述多个词语中去除重复词语和停用词，获得候选词语集合；对于所述候选词语集合中...

【技术保护点】
1.一种文本检索方法，其特征在于，所述方法包括：对检索文本进行分词，获得检索词语集合；对于所述检索词语集合中的每个词语，分别采用TextRank算法计算每个词语的TextRank值；依据各个词语的TextRank值，选取预设数量的词语作为关键词集合；确定所述关键词集合中各个词语的词向量；获取至少一个待检索文本各自对应的文本词语集合，并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量；计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度；根据所述相似度将所述至少一个待检索文本进行排序输出。

【技术特征摘要】
1.一种文本检索方法，其特征在于，所述方法包括：对检索文本进行分词，获得检索词语集合；对于所述检索词语集合中的每个词语，分别采用TextRank算法计算每个词语的TextRank值；依据各个词语的TextRank值，选取预设数量的词语作为关键词集合；确定所述关键词集合中各个词语的词向量；获取至少一个待检索文本各自对应的文本词语集合，并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量；计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度；根据所述相似度将所述至少一个待检索文本进行排序输出。2.根据权利要求1所述的方法，其特征在于，获取至少一个待检索文本包括：包括：基于所述检索文本，利用文本相似度算法，确定至少一个待检索文本；获取至少一个待检索文本各自对应的文本词语集合包括：对每一个待检索文本进行分词，获得多个词语；从所述多个词语中去除重复词语和停用词，获得候选词语集合；对于所述候选词语集合中的每个词语，分别采用TextRank算法计算每个词语的TextRank值；根据所述候选词语集合中每个词语的TextRank值，从所述候选词语集合中确定出文本词语集合。3.根据权利要求1或2所述的方法，其特征在于，所述根据所述相似度将所述至少一个待检索文本进行排序输出，包括：对于任意一个待检索文本，从计算得到的所述关键词集合中每个词语与该待检索文本的文本词语集合中每个词语的相似度中，获取所述关键词集合中每个词语各自对应的最大相似度；从所述关键词集合中每个词语各自对应的最大相似度中，按最大相似度从大到小的顺序，确定预设排序位置处的词语对应的最大相似度作为所述待检索文本的排序得分；依据各个待检索文本的排序得分，对所述至少一个待检索文本进行排序输出。4.根据权利要求3所述的方法，其特征在于，所述待检索文本包括：待检索文本题目和待检索文本正文。5.根据权利要求1所述的方法，其特征在于，确定词语的词向量包括：利用预先训练好的词向量模型，确定词语的词向量；其中所述预先训练好的词向量模型包括以下任意一种：word2vector模型、潜在语义分析LSA矩阵分解模型、概率潜语义分析PLSA潜在语义分析概率模型和潜在狄利克雷分布LDA模型。6.一种文本检索装置，其特征在于，所述装置包括：分词单元，用于对检索文本...

【专利技术属性】
技术研发人员：戴威，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人