文本检索方法及装置制造方法及图纸

技术编号：21628932 阅读：21 留言：0更新日期：2019-07-17 11:05

本发明专利技术公开了一种文本检索方法及装置，可以对用户输入的检索语句进行分词，获得检索词语集合；确定所述检索词语集合中的各词语的词向量；对至少一个待检索文本：计算从该待检索文本中确定的文本词语集合中每一个词语的词向量与所述检索词语集合中每一个词语的词向量的相似度；根据所述相似度将所述至少一个待检索文本进行排序输出。由于本发明专利技术使用词向量表示各词语及词语间的关系，因此本发明专利技术可以根据各词语本身以及词语间的关系对待检索文本进行排序，准确率较高。

Text Retrieval Method and Device

全部详细技术资料下载

【技术实现步骤摘要】
文本检索方法及装置
本专利技术涉及文本检索
，尤其涉及文本检索方法及装置。
技术介绍
处于各种需要，用户往往需要通过输入检索语句对文本进行检索，例如：通过输入“老板不还钱”对裁判文书进行检索。现有的文本检索方法在对用户输入的检索语句进行分词得到多个词语后，确定待检索文本中出现上述多个词语中各词语的次数，基于该次数对各待检索文本进行排序输出。但是，本申请专利技术人在实现本专利技术的过程中发现：现有的文本检索方法的准确率较低，即：现有技术常将与用户输入的检索语句不相关的文本排列在前面作为检索结果。例如：用户输入“老板不还钱”，现有技术将该检索语句分为“老板”、“不”和“还钱”三个词语。由于卖淫案类的裁判文书中经常出现大量的“老板”和“不”一词，因此现有技术容易将卖淫案类的裁判文书排列在签名，造成检索结果的不准确。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文本检索方法及装置，技术方案如下：一种文本检索方法，包括：对用户输入的检索语句进行分词，获得检索词语集合；确定所述检索词语集合中的各词语的词向量；对至少一个待检索文本：计算从该待检索文本中确定的文本词语集合中每一个词语的词向量与所述检索词语集合中每一个词语的词向量的相似度；根据所述相似度将所述至少一个待检索文本进行排序输出。可选的，所述根据所述相似度将所述至少一个待检索文本进行排序输出，包括：对所述至少一个待检索文本中的每个待检索文本：从该待检索文本的文本词语集合中每个词语各自对应的至少一个相似度中，确定出每个词语各自对应的最大相似度，从每个词语各自对应...

【技术保护点】
1.一种文本检索方法，其特征在于，包括：对用户输入的检索语句进行分词，获得检索词语集合；确定所述检索词语集合中的各词语的词向量；对至少一个待检索文本：计算从该待检索文本中确定的文本词语集合中每一个词语的词向量与所述检索词语集合中每一个词语的词向量的相似度；根据所述相似度将所述至少一个待检索文本进行排序输出。

【技术特征摘要】
1.一种文本检索方法，其特征在于，包括：对用户输入的检索语句进行分词，获得检索词语集合；确定所述检索词语集合中的各词语的词向量；对至少一个待检索文本：计算从该待检索文本中确定的文本词语集合中每一个词语的词向量与所述检索词语集合中每一个词语的词向量的相似度；根据所述相似度将所述至少一个待检索文本进行排序输出。2.根据权利要求1所述的方法，其特征在于，所述根据所述相似度将所述至少一个待检索文本进行排序输出，包括：对所述至少一个待检索文本中的每个待检索文本：从该待检索文本的文本词语集合中每个词语各自对应的至少一个相似度中，确定出每个词语各自对应的最大相似度，从每个词语各自对应的最大相似度中确定出取值最小的最大相似度并作为该检索文本的排序得分；以各排序得分为排序依据对所述至少一个待检索文本进行排序输出。3.根据权利要求1或2所述的方法，其特征在于，对任一待检索文本：从该待检索文本中确定文本词语集合的过程包括：对该待检索文本进行分词，获得多个词语；从所述多个词语中去除重复词语和停用词，获得第一词语集合；对所述第一词语集合中的每个词语：确定该词语的左侧熵值和该词语的右侧熵值的熵值和；根据所述熵值和从所述第一词语集合中确定出文本词语集合。4.根据权利要求3所述的方法，其特征在于，所述待检索文本包括：待检索文本题目和待检索文本正文。5.一种文本检索装置，其特征在于，包括：分词单元、向量确定单元、相似度计算单元和文本排序单元，所述分词单元，用于对用户输入的检索语句进行分词，获得检索词语集合；所述向量确定单元，用于确定所述检索词语集合中的各词语的词向量；所述相似度计算单元，用于对至少一个待检索文本：计算从该待检索文本中确定的文本...

【专利技术属性】
技术研发人员：戴威，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人