【技术实现步骤摘要】
查询结果匹配度计算方法及装置
本专利技术实施例涉及文本匹配计算
,具体涉及一种查询结果匹配度计算方法及装置。
技术介绍
在查询时,查询句与查询结果的匹配度代表了查询结果是否与查询句紧密相关。匹配度越高越紧密,说明对应的查询结果越能满足用户的查询需求,提升用户的查询体验。现有技术在查询时所采用的查询引擎往往是将查询结果中的多个单词拼接在一起,将查询句进行切词处理后的单词进行召回,当查询句按照细粒度进行切词处理时,召回的数量较多,查询句中多个细粒度的单词能够分别命中查询结果中的多个单词。由于查询句大多为较短文本句,一般包含一个独立的实体信息或者包含单一的语义,而查询结果的不同字段往往包含不同语义或不同的实体信息,导致在字面上命中度高或相似度高,但实体信息差异较大。例如查询结果为餐品名称,“宫保鸡丁面”和“宫保鸡丁盖浇饭”两者的相似度很高,但两者分别属于不同的餐品,其实体区别较大。这种匹配算法基于单个单词进行匹配容易造成字段破碎匹配的情形。以查询句为中心进行归一化处理时,注重查询句单词本身的匹配,使得在缺乏查 ...
【技术保护点】
1.一种查询结果匹配度计算方法,其包括:/n获取查询句以及所述查询句对应的至少一个查询结果的描述句;/n将查询句对应的查询词序列集合与任一描述句对应的描述词序列集合进行匹配得到至少一个n元词组;其中n为正整数;/n对所述至少一个n元词组进行归类,得到至少一个n元词组集合;/n针对任一n元词组集合中任一n元词组,根据匹配因子计算该n元词组所包含的每个单词的匹配分,所述匹配因子包含所述单词的权重因子和紧密度因子;以及,根据各个n元词组的各个单词的匹配分,计算得到n元词组集合的匹配分;/n对所述至少一个n元词组集合的匹配分进行融合计算,得到查询结果的匹配度。/n
【技术特征摘要】
1.一种查询结果匹配度计算方法,其包括:
获取查询句以及所述查询句对应的至少一个查询结果的描述句;
将查询句对应的查询词序列集合与任一描述句对应的描述词序列集合进行匹配得到至少一个n元词组;其中n为正整数;
对所述至少一个n元词组进行归类,得到至少一个n元词组集合;
针对任一n元词组集合中任一n元词组,根据匹配因子计算该n元词组所包含的每个单词的匹配分,所述匹配因子包含所述单词的权重因子和紧密度因子;以及,根据各个n元词组的各个单词的匹配分,计算得到n元词组集合的匹配分;
对所述至少一个n元词组集合的匹配分进行融合计算,得到查询结果的匹配度。
2.根据权利要求1所述的方法,其中,在所述获取查询句之后,所述方法还包括:对所述查询句进行切词处理,得到查询句对应的查询词序列集合;
获取所述查询句对应的至少一个查询结果的描述句进一步包括:根据所述查询句对应的查询词序列集合进行查询,获取与查询词序列集合匹配的至少一个查询结果的描述句;
所述方法还包括:将至少一个查询结果的描述句进行切词处理,得到描述句对应的描述词序列集合。
3.根据权利要求1所述的方法,其中,所述将查询句对应的查询词序列集合与任一描述句对应的描述词序列集合进行匹配得到至少一个n元词组进一步包括:
根据描述词序列集合过滤查询词序列集合中未匹配的单词,得到过滤后的查询词序集合;
将查询词序列集合与描述词序列集合按照匹配序列进行匹配,基于查询词序列中n个单词的序列相关性,得到至少一个n元词组;其中,n元词组由n个单词组成;不同n元词组中包含的单词不重复。
4.根据权利要求1-3中任一项所述的方法,其中,所述针对任一n元词组集合中任一n元词组,根据匹配因子计算该n元词组所包含的每个单词的匹配分,所述匹配因子包含所述单词的权重因子和紧密度因子进一步包括:
针对任一n元词组集合中任一n元词组,利用单词匹配因子算法计算该n元词组中各个单词的权重分值和紧密度分值;
根据n元词组中各个单词的权重分值和紧密度分值,分别计算每个单词的匹配分;
所述根据各个n元词组的各个单词的匹配分,计算得到n元词组集合的匹配分进一步包括:
针对任一n元词组集合中任一n元词组,累加该n元词组中各个单词的匹配分,得到该n元词组的匹配分;
累加该n元词组集合中各个n元词组的匹配分,并根据n对应的组数量对其进...
【专利技术属性】
技术研发人员:何旺贵,苑爱泉,王晓峰,王磊,桑梓森,邓哲宇,王宇昊,李向阳,芦亚飞,朱培源,
申请(专利权)人:口口相传北京网络技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。