检索理解方法和电子设备技术

技术编号:38142482 阅读:5 留言:0更新日期:2023-07-08 09:58
本申请实施例提供了检索理解方法和电子设备。在该方法中,电子设备在基于用户输入的查询内容进行本地搜索时,可以利用数据压缩后的语言模型(小于预设阈值)对查询内容进行包括纠错在内的分析理解,得到该查询内容对应的理解结果。并将该理解结果用于后续的检索召回以及排序得到搜索结果。实施本申请提供的技术方案,可以提升query理解的准确性,进而提升搜索的准确性。索的准确性。索的准确性。

【技术实现步骤摘要】
检索理解方法和电子设备


[0001]本申请涉及终端领域,尤其涉及检索理解方法和电子设备。

技术介绍

[0002]电子设备提供的本地搜索功能是一种智慧化服务。本地搜索功能可以基于用户输入的查询内容进行搜索,得到该查询内容对应的搜索结果。然后显示搜索结果。电子设备基于查询内容进行搜索得到搜索结果时通常分为三个基本步骤。这三个基本步骤包括检索(query)理解、检索召回以及排序。其中,query理解为基于查询内容的语义等信息对查询内容进行分析理解,进一步得到该查询内容对应的理解结果,该理解结果可以体现用户的意图。检索召回是基于理解结果进行检索,找到于理解结果相关的文本作为召回结果。排序是指针对召回结果按照相关性、重要性或者相关度等标准对召回结果进行排序,使得召回结果按照相关程度降序排列,以便让最相关的召回结果排在最前面。
[0003]由此可见,query理解对搜索结果的准确性影响很大,原因在于: query理解得到的理解结果作为检索召回的基础(输入),直接影响着检索召回所得召回结果的精确度。而召回结果进行排序之后即使检索结果。则如果query理解做得不好会导致搜索结果出现偏差,query理解做得好会使得搜索结果更准确。
[0004]因此,电子设备如何进行query理解是值得研究的方向。

技术实现思路

[0005]本申请提供了一种检索理解方法和电子设备,电子设备基于查询内容进行搜索时,进行检索(query)理解的过程中可以识别查询内容中的错误字符,进而更好的实现搜索。
[0006]第一方面,本申请提供了一种检索理解方法,该方法包括:电子设备对查询内容进行切分,得到第一字符串序列以及第二字符串序列;该第一字符串序列以及第二字符串序列中第h个字符串的第一个字符为该查询内容中第h个字符,该第一字符串序列中每一个字符串包含的字符数量相同,且,该第二字符串序列中每一个字符串包含的字符数量相同;该电子设备基于该第一字符串序列得到每一个第一字符串的得分,以及,基于该第二字符串序列得到每一个第二字符串的得分;该第一字符串为该第一字符串序列中的字符串;该第二字符串为该第二字符串序列中的字符串;该电子设备基于每一个第一字符串的得分以及每一个第二字符串的得分确定该查询内容中的错误字符;该电子设备基于该错误字符得到理解结果。
[0007]上述实施例中,第一切词规则以及第二切词规则可以为实施例中涉及的ngram切词规则,只是两者的n取值不同。在输入的查询内容存在错误的情况下,可以使用两种不同切词规则得到不同切词规则下查询内容中各字符的得分,然后基于每一个字符在不同切词规则下的得分得到每一个字符的最终得分。利用不同的切词规则相互修正,提高检索理解时,确定错误字符的准确率。
[0008]结合第一方面,在一些实施例中,该电子设备基于该错误字符得到理解结果,具体包括:该电子设备对该查询内容中的错误字符进行纠错处理,得到纠错后的内容;该电子设备基于该纠错后的内容得到理解结果。
[0009]上述实施例中,对查询内容进行检索理解包括对查询内容进行纠错处理确定其中错误的字符,并将该错误的字符进行改正以得到纠错后的内容作为理解结果。这样,即使用户输入的查询内容存在错误的字符,例如拼写错误的字符等,电子设备也可以在query理解后纠错这些错误。使得后续的搜索流程可以基于纠错后的查询内容进行,提升搜索准确性。
[0010]结合第一方面,在一些实施例中,该电子设备中还包括语言模型,该语言模型中记录了不同预设词、每一个预设词对应的概率对数值以及回退权对数值;该概率对数值为对预设词对应的概率取对数之后的结果,该概率用于指示预设词的正确率;该回退权对数值为对预设词对应的回退权值取对数之后的结果,该回退权值用于指示预设词后接词的能力;该电子设备基于第一字符串序列得到每一个第一字符串的得分,具体包括:对于每一个第一字符串,在该第一字符串为该语言模型中的一个预设词时,该电子设备基于该第一字符串对应的概率对数值确定该第一字符串的得分;在该第一字符串不为该语言模型中的预设词时,该电子设备基于该第一字符串中各字符的概率对数值或者回退权对数值确定该第一字符串的得分。
[0011]结合第一方面,在一些实施例中,该第一切词规则为将该查询内容中每一个字符都与其后一个字符切分成一个字符串;该第二切词规则为将该查询内容中每一个字符都与其后两个字符切分成一个字符串。
[0012]上述实施例中,第一切词规则可以为实施例中的2gram切词规则,此时第一字符串序列可以为实施例中的字符串序列1,第一字符串可以为实施例中的第一类字符串。第二切词规则可以为实施例中的3gram切词规则,此时第二字符串序列可以为实施例中的字符串序列2。第二字符串可以为实施例中涉及的第二类字符串。两个字符的词语以及三个字符的词语是用户常常会输入的高频词语类型,因此这里采取2gram切词规则以及3gram切词规则符合日常用语习惯。
[0013]结合第一方面,在一些实施例中,该电子设备基于每一个第一字符串的得分以及每一个第二字符串的得分确定该查询内容中的错误字符,具体包括:该电子设备在在第一个第一字符串的得分前以及最后一个第一字符串的得分后各自填充一个得分,得到第一得分序列;该电子设备在第一个第二字符串的得分前以及最后一个第二字符串的得分后各自填充两个得分,得到第二得分序列;该电子设备基于该第一得分序列得到该查询内容中每一个字符的第一得分;其中,查询内容中第i个字符的第一得分等于该第一得分序列中第i个第一得分以及第i+1个第一得分的平均值;其中,第i个第一得分为该第一得分序列中第i个字符串的得分;该电子设备基于该第二得分序列得到该查询内容中每一个字符的第二得分;其中,查询内容中第i个字符的第二得分等于该第一得分序列中第i个第二得分、第i+1个第二得分以及第i+2个第二得分的平均值;其中,该第i个第二得分为该第二得分序列中第i个字符串的得分;该电子设备基于该每一个字符的第一得分以及第二得分取平均,得到该每一个字符的得分;该电子设备确定该每一个字符的得分中小于得分中位数且通过准确性验证的得分所对应的字符为错误字符;该得分中位数为该每一个字符的得分的中位数。
[0014]上述实施例中,在判断错误字符时还可以对其进行准确性验证进一步提高了识别
错误字符时的准确性。
[0015]结合第一方面,在一些实施例中,该方法还包括:该电子设备按照词语为单位对该查询内容进行分词,得到至少一个词语;该电子设备基于纠错后的内容得到理解结果,具体包括:该电子设备将该纠错后的内容、该至少一个词语作为理解结果。
[0016]上述实施例中,在进行检索理解时,除了对查询内容进行纠错,还可以对查询内容进行词语的切分,从更多维度理解该查询内容有利于提高搜索准确性。
[0017]结合第一方面,在一些实施例中,该方法还包括:该电子设备对该至少一个词语进行同义词替换,得到至少一个同义词。该电子设备基于纠错后的内容得到理解结果,具体包括:该电子设备将该纠错后的内容、该至少一个词语、该至少本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检索理解方法,其特征在于,所述方法包括:电子设备对查询内容进行切分,得到第一字符串序列以及第二字符串序列;所述第一字符串序列以及第二字符串序列中第h个字符串的第一个字符为所述查询内容中第h个字符,所述第一字符串序列中每一个字符串包含的字符数量相同,且,所述第二字符串序列中每一个字符串包含的字符数量相同;所述电子设备基于所述第一字符串序列得到每一个第一字符串的得分,以及,基于所述第二字符串序列得到每一个第二字符串的得分;所述第一字符串为所述第一字符串序列中的字符串;所述第二字符串为所述第二字符串序列中的字符串;所述电子设备基于每一个第一字符串的得分以及每一个第二字符串的得分确定所述查询内容中的错误字符;所述电子设备基于所述错误字符得到理解结果。2.根据权利要求1所述的方法,所述电子设备基于所述错误字符得到理解结果,具体包括:所述电子设备对所述查询内容中的错误字符进行纠错处理,得到纠错后的内容;所述电子设备基于所述纠错后的内容得到理解结果。3.根据权利要求1或2所述的方法,其特征在于,所述电子设备中还包括语言模型,所述语言模型中记录了不同预设词、每一个预设词对应的概率对数值以及回退权对数值;所述概率对数值为对预设词对应的概率取对数之后的结果,所述概率用于指示预设词的正确率;所述回退权对数值为对预设词对应的回退权值取对数之后的结果,所述回退权值用于指示预设词后接词的能力;所述电子设备基于第一字符串序列得到每一个第一字符串的得分,具体包括:对于每一个第一字符串,在所述第一字符串为所述语言模型中的一个预设词时,所述电子设备基于所述第一字符串对应的概率对数值确定所述第一字符串的得分;在所述第一字符串不为所述语言模型中的预设词时,所述电子设备基于所述第一字符串中各字符的概率对数值或者回退权对数值确定所述第一字符串的得分。4.根据权利要求2所述的方法,其特征在于,所述第一字符串序列为将所述查询内容中每一个字符都与其后一个字符切分成一个字符串之后得到的;所述第二字符串序列为将所述查询内容中每一个字符都与其后两个字符切分成一个字符串之后得到的。5.根据权利要求4所述的方法,其特征在于,所述电子设备基于每一个第一字符串的得分以及每一个第二字符串的得分确定所述查询内容中的错误字符,具体包括:所述电子设备在在第一个第一字符串的得分前以及最后一个第一字符串的得分后各自填充一个得分,得到第一得分序列;所述电子设备在第一个第二字符串的得分前以及最后一个第二字符串的得分后各自填充两个得分,得到第二得分序列;所述电子设备基于所述第一得分序列得到所述查询内容中每一个字符的第一得分;其中,查询内容中第i个字符的第一得分等于所述第一得分序列中第i个第一得分以及第i+1个第一得分的平均值;其中,第i个第一得分为所述第一得分序列中第i个字...

【专利技术属性】
技术研发人员:刘华兴张禹
申请(专利权)人:荣耀终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1