一种语句检索方法及装置制造方法及图纸

技术编号:21141072 阅读:27 留言:0更新日期:2019-05-18 05:09
本申请提出一种语句检索方法及装置,该语句检索方法,包括:构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;从所述语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。上述语句检索过程不再从字符或词语相似度层面检索相似语句,而是从语句的含义层面进行相似语句检索,相对于检索得到字符或词语与查询语句存在高度重合的相似语句,本申请实施例所检索出的相似语句的形式更灵活,检索结果更丰富、全面。

A Sentence Retrieval Method and Device

【技术实现步骤摘要】
一种语句检索方法及装置
本申请涉及文本检索
,尤其涉及一种语句检索方法及装置。
技术介绍
针对查询语句,从语料库中检索出与查询语句相似的语句,是一种常见的文本检索应用场景。目前常用的相似语句检索方法是根据查询语句中的词语或字符,从语料库中检索与查询语句的词语或字符的重合度较高的语句,作为检索得到的相似语句。上述技术方案通过查询语句中的词语或字符从语料库中检索相似语句时,得到的相似语句都是与查询语句存在大量重复字符的语句,检索结果较单一,对于字符形式与查询语句不同,但是语句含义与查询语句类似的语句都无法检出。
技术实现思路
基于上述现有技术的缺陷和不足,本申请提出一种语句检索方法及装置,能够提高检索准确度,使检索更全面。一种语句检索方法,包括:构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;从所述预设的语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。可选的,所述构建查询语句的语义特征向量,包括:分别构建所述查询语句的每个分词的特征向量,以及每个词组的特征向量;其中,所述词组由所述查询语句中的至少两个分词组合得到;根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量。可选的,所述根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量,包括:计算所述查询语句的每个分词以及每个词组的特征向量之和的平均值,作为所述查询语句的语义特征向量。可选的,在分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度之前,所述方法还包括:对预设的语料库中的语句进行去重处理。可选的,所述对预设的语料库中的语句进行去重处理,包括:分别计算预设的语料库中的各个语句之间的dice距离;根据所述语料库中的各个语句之间的dice距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的dice距离均不小于预设的第一距离阈值;和/或,分别计算所述语料库中的各个语句之间的编辑距离;根据所述语料库中的各个语句之间的编辑距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的编辑距离均不小于预设的第二距离阈值。可选的,在分别度量所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度之前,所述方法还包括:对预设的语料库中的语句进行语句清洗处理。一种语句检索装置,包括:向量构建单元,用于构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;相似度度量单元,用于分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;语句筛选单元,用于从所述预设的语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。可选的,所述向量构建单元,包括:词向量构建单元,用于分别构建所述查询语句中的每个分词的特征向量,以及每个词组的特征向量;其中,所述词组由所述查询语句中的至少两个分词组合得到;词向量运算单元,用于根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量。可选的,所述装置还包括:去重处理单元,用于对预设的语料库中的语句进行去重处理。可选的,所述去重处理单元对预设的语料库中的语句进行去重处理时,具体用于:分别计算预设的语料库中的各个语句之间的dice距离;根据所述语料库中的各个语句之间的dice距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的dice距离均不小于预设的第一距离阈值;和/或,分别计算所述语料库中的各个语句之间的编辑距离;根据所述语料库中的各个语句之间的编辑距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的编辑距离均不小于预设的第二距离阈值。本申请利用查询语句和语料库语句的语义特征向量,从语料库中检索与查询语句的语义特征向量的相似度较高的语句作为查询语句的相似语句,该检索过程不再从字符或词语相似度层面检索相似语句,而是从语句的含义层面进行相似语句检索,相对于检索得到字符或词语与查询语句存在高度重合的相似语句,本申请实施例所检索出的相似语句的形式更灵活,检索结果更丰富、全面。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1是本申请实施例提供的一种语句检索方法的流程示意图;图2是本申请实施例提供的构建查询语句的语义特征向量的流程示意图;图3是本申请实施例提供的根据查询语句的每个分词以及每个词组的特征向量求取查询语句的语义特征向量的处理示意图;图4是本申请实施例提供的一种语句检索装置的结构示意图;图5是本申请实施例提供的另一种语句检索装置的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例公开了一种语句检索方法,参见图1所示,该方法包括:S101、构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;具体的,上述查询语句,是语句检索的基准。在语句检索场景中,一般是从语料库中,查询、检索与上述查询语句相似的语句,因此,查询语句的语句内容和语句形式直接影响语句检索的结果。上述语义特征向量,是指包含语义信息的特征向量。在本申请实施例中,以向量的方式表示语句的特征,具体的,通过计算语句的向量将语句以向量表示,该向量则作为该语句的特征向量。需要说明的是,本申请实施例在构建上述查询语句的特征向量时,具体是构建包含查询语句的语义信息的特征向量,即语义特征向量。上述语义信息,即语句的含义信息,是表示语句所表达的意思的信息。则可以理解,上述构建的查询语句的语义特征向量,是表示查询语句的语义的特征向量,通过该语义特征向量,可以简明地表示查询语句的语义特征。理论上,任意可以生成文本的语义特征向量的特征构建方法,都可以被本申请实施例所采用,用来对上述查询语句进行语义特征向量的构建。S102、分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;具体的,上述预设的语料库,是指预先设置的,包含大量语句资料的数据库,或者语句集合。上述语料库中包含各种类型、各种内容的语句,而语句检索,就是从该语料库中检索出与上述查询语句类似的语句。上述语句,是指由词或词组、短语等构成的文本句子,可以是中文文本,也可以是英文文本,也可以包含数字、标点或其他特殊字符。一个语句从不同角度或标准来看,可以属于不同的句子类别,例如,从句子结构来看,可以是单句、复句等;从文本语言类型来看,可以是中文本文档来自技高网...

【技术保护点】
1.一种语句检索方法,其特征在于,包括:构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;从所述预设的语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。

【技术特征摘要】
1.一种语句检索方法,其特征在于,包括:构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;从所述预设的语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。2.根据权利要求1所述的方法,其特征在于,所述构建查询语句的语义特征向量,包括:分别构建所述查询语句的每个分词的特征向量,以及每个词组的特征向量;其中,所述词组由所述查询语句中的至少两个分词组合得到;根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量。3.根据权利要求2所述的方法,其特征在于,所述根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量,包括:计算所述查询语句的每个分词以及每个词组的特征向量之和的平均值,作为所述查询语句的语义特征向量。4.根据权利要求1至3中任一权利要求所述的方法,其特征在于,在分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度之前,所述方法还包括:对预设的语料库中的语句进行去重处理。5.根据权利要求4所述的方法,其特征在于,所述对预设的语料库中的语句进行去重处理,包括:分别计算预设的语料库中的各个语句之间的dice距离;根据所述语料库中的各个语句之间的dice距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的dice距离均不小于预设的第一距离阈值;和/或,分别计算所述语料库中的各个语句之间的编辑距离;根据所述语料库中的各个语句之间的编辑距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的编辑距离均不小于预设的第二距离阈值。6...

【专利技术属性】
技术研发人员:罗晓天
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1