一种文本检索结果评分方法、检索方法和装置制造方法及图纸

技术编号:26342603 阅读:32 留言:0更新日期:2020-11-13 20:35
本发明专利技术公开了一种文本检索结果评分方法、检索方法和装置。评分方法包括:根据用户输入的检索语句确定其中包含的词的标准次序;根据所述标准次序计算检索到的语料的逆序数;根据所述语料中包含所述检索语句中的词的数量和所述逆序数,计算逆序率;根据所述逆序率计算所述语料的评分。通过加入逆序数和组合数,实现了语序对检索结果评分的影响,进而实现了对相似语料的敏感反应,从而保证对用户的输入检索出更加准确的文档。

【技术实现步骤摘要】
一种文本检索结果评分方法、检索方法和装置
本专利技术涉及数据检索
,尤其涉及一种文本检索结果评分方法、检索方法和装置。
技术介绍
检索式对话模型是对话模型的一种,主要的流程(如图1所示)是针对用户的输入(query),通过检索与匹配的方式从预先构建好的语料库中找出若干相关的候选语料(response),之后通过评分对其进行排序,把分数最高的语料对应的答案(answer)作为输出返回给用户。Elasticsearch(以下简称ES)是一个基于ApacheLucene的开源搜索引擎,无论在开源还是专有领域,ES可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。ES中的数据可以分为两类:精确值和全文。精确值包括日期、用户ID、IP地址等;全文包括文本内容,如一条日志、文本语料等。这两种类型的数据的查询方式不同:对于精确值,查询结果要么匹配,要么不匹配;全文内容的查询则无法给出“是”或者“否”的结果,它只能找到结果“看起来像”用户要查询的答案,因此在查询之后会把查询结果按相似度评分排序,评分越高,相似度越大。E本文档来自技高网...

【技术保护点】
1.一种文本检索结果评分方法,其特征在于,包括:/n根据用户输入的检索语句确定其中包含的词的标准次序;/n根据所述标准次序计算检索到的语料的逆序数;/n根据所述语料中包含所述检索语句中的词的数量和所述逆序数,计算逆序率;/n根据所述逆序率计算所述语料的评分。/n

【技术特征摘要】
1.一种文本检索结果评分方法,其特征在于,包括:
根据用户输入的检索语句确定其中包含的词的标准次序;
根据所述标准次序计算检索到的语料的逆序数;
根据所述语料中包含所述检索语句中的词的数量和所述逆序数,计算逆序率;
根据所述逆序率计算所述语料的评分。


2.如权利要求1所述的方法,其特征在于,所述根据用户输入的检索语句确定其中包含的词的标准次序,包括:
对所述检索语句进行处理,得到以词为元素单位的第一词列表;
对所述第一词列表中的词顺序编号,得到表示标准次序的第一编号列表。


3.如权利要求2所述的方法,其特征在于,所述根据所述标准次序计算检索到的语料的逆序数,包括:
对所述语料进行处理,得到以词为元素单位的第二词列表;
将所述第二词列表与所述第一词列表比对,按照所述第一词列表与所述第一编号列表的对应关系,对所述第二词列表中包含的所述第一词列表的词进行编号得到第二编号列表;
根据所述第二编号列表计算所述逆序数。


4.如权利要求1所述的方法,其特征在于,所述根据所述语料中包含所述检索语句中的词的数量和所述逆序数,计算逆序率包括:
根据所述语料中包含所述检索语句中的词的数量计算组合数;
根据所述逆序数和组合数计算所述逆序率。


5.如权利要求4所述的方法,其特征在于,按照如下公式计算所述组合数:


其中,com_num为组合数,len为语...

【专利技术属性】
技术研发人员:张宇钱泓锦刘占亮窦志成
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1