基于搜索场景的Query标签识别方法和装置制造方法及图纸

技术编号:37391345 阅读:11 留言:0更新日期:2023-04-27 07:29
本申请提供了一种基于搜索场景的Query标签识别方法和装置、电子设备及存储介质,涉及互联网技术领域。该方法获取搜索请求中的搜索词Query;读取预设的缓存表;在缓存表的实体词库和/或离线模型预测表中,查找与Query匹配的目标实体词,将目标实体词对应的实体标签作为Query的标签。本申请实施例利用预设的缓存表中的实体词库和/或离线模型预测表,可以先对Query的层级做区分,实现对不同层级Query进行区分性识别,提高识别的效率和准确率;并且,将与Query匹配的目标实体词对应的实体标签作为Query的标签,通过标签可以准确地理解用户的搜索意图,同时能够增强搜索数据,提高搜索的准确性。准确性。准确性。

【技术实现步骤摘要】
基于搜索场景的Query标签识别方法和装置


[0001]本申请涉及互联网
,尤其涉及一种基于搜索场景的Query标签识别方法和装置、电子设备及存储介质。

技术介绍

[0002]随着互联网技术的快速发展,搜索信息涉及到人们学习、工作和生活中的许多场景,例如,当人们需要考驾照,则可以在一些搜索平台去搜索驾校的班型和联系电话等;当人们需要了解某产品的功能、研发生产公司等信息,则可以在电商、商业查询等平台去搜索信息;当人们需要点餐,则可以在外卖平台搜索信息进行点餐,等等。
[0003]在搜索场景中,用户可以输入Query(搜索词),平台系统会返回与Query相关的搜索结果,搜索结果的相关性和准确性依赖于对用户搜索Query的语义的正确理解。目前,主要基于深度学习模型进行建模来进行文本语义的识别,而这些建立的模型主要针对处理中长文本有较好的识别准确率。在外卖搜索场景,搜索Query的长度较短,运用这些建立的模型不能在外卖搜索场景得到较好的泛化能力,识别准确性不高,且识别效率也较低。因此,亟需解决这一技术问题。

技术实现思路

[0004]鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的基于搜索场景的Query标签识别方法和装置、电子设备及存储介质。所述技术方案如下:
[0005]第一方面,提供了一种基于搜索场景的Query标签识别方法,包括:
[0006]获取搜索请求中的搜索词Query;
[0007]读取预设的缓存表,其中所述缓存表中包括实体词库和/或离线模型预测表,所述实体词库中包括第一层级实体词与实体标签的对应关系,所述离线模型预测表中包括第二层级实体词与实体标签的对应关系;
[0008]在所述缓存表的实体词库和/或离线模型预测表中,查找与所述Query匹配的目标实体词,将所述目标实体词对应的实体标签作为所述Query的标签。
[0009]在一种可能的实现方式中,通过以下步骤构建所述离线模型预测表:
[0010]获取用于文本标签识别的第一离线模型,其中所述第一离线模型对输入文本进行向量表征得到向量表征结果,随后利用向量表征结果对输入文本中每个字符进行标签分类预测,预测每个字符属于各个标签的概率,进而确定每个字符对应的一种标签,并输出初步的标签序列,之后对初步的标签序列进行调整修正得到最终预测的标签序列;
[0011]调整所述第一离线模型中用于对输入文本进行向量表征的子模型的预训练任务,将掩码语言模型任务调整为实体级掩码语言模型任务,并去除下个句子预测任务,增加字符顺序恢复任务;以及去除所述第一离线模型中用于抽取实体分类的包含上下文的文本信息的子模型,得到第二离线模型;
[0012]获取多个搜索词,将各个搜索词作为输入文本输入所述第二离线模型,利用所述第二离线模型识别各个搜索词的标签;
[0013]利用各个搜索词的标签构建所述离线模型预测表。
[0014]在一种可能的实现方式中,所述实体级掩码语言模型任务是指随机遮蔽输入文本中预设比例的字符,由用于对输入文本进行向量表征的子模型预测出被遮蔽的原始字符,并且在遮蔽时,若遮蔽的是实体中的字符,则将整个实体进行遮蔽。
[0015]在一种可能的实现方式中,所述字符顺序恢复任务是指随机打乱输入文本中的字符顺序,由用于对输入文本进行向量表征的子模型预测出原先的字符顺序。
[0016]在一种可能的实现方式中,所述第二离线模型中的向量表征结果,为用于对输入文本进行向量表征的子模型最后一层中的所有字符的输出向量的平均向量。
[0017]在一种可能的实现方式中,在所述缓存表的实体词库和/或离线模型预测表中,查找与所述Query匹配的目标实体词,如果没有查找到与所述Query匹配的目标实体词,所述方法还包括:
[0018]在预设的正则条件中,查找与所述Query匹配的内容;
[0019]如果查找到与所述Query匹配的内容,则将查找到的与所述Query匹配的内容对应的标签,作为所述Query的标签。
[0020]在一种可能的实现方式中,在预设的正则条件中,查找与所述Query匹配的内容,如果没有查找到与所述Query匹配的内容,所述方法还包括:
[0021]通过字符级多元组递归匹配算法对所述Query中的实体进行匹配,由多元组匹配实体词库,取所述Query所有匹配上的多元组中最长的作为实体;
[0022]将所述Query按照匹配到的多元组中最长的实体进行切分,得到子串,再迭代进行多元组最大匹配,取子串所有匹配上的多元组中最长的作为实体,以此类推,直到子串长度小于预设阈值或子串没有匹配到实体停止;
[0023]将匹配到的所有实体进行合并,判断各个实体中的字符并集与所述Query是否相同;
[0024]如果相同,则将各个实体对应的标签作为所述Query的标签。
[0025]在一种可能的实现方式中,判断各个实体中的字符并集与所述Query是否相同,如果不相同,所述方法还包括:
[0026]调用第二在线模型,其中所述第二在线模型是由所述第一离线模型通过模型蒸馏得到第一在线模型,并基于第一在线模型构建的;
[0027]利用所述第二在线模型在线识别所述Query的标签。
[0028]第二方面,提供了一种基于搜索场景的Query标签识别装置,包括:
[0029]获取模块,用于获取搜索请求中的搜索词Query;
[0030]读取模块,用于读取预设的缓存表,其中所述缓存表中包括实体词库和/或离线模型预测表,所述实体词库中包括第一层级实体词与实体标签的对应关系,所述离线模型预测表中包括第二层级实体词与实体标签的对应关系;
[0031]识别模块,用于在所述缓存表的实体词库和/或离线模型预测表中,查找与所述Query匹配的目标实体词,将所述目标实体词对应的实体标签作为所述Query的标签。
[0032]在一种可能的实现方式中,所述装置还包括构建模块,用于:
[0033]获取用于文本标签识别的第一离线模型,其中所述第一离线模型对输入文本进行向量表征得到向量表征结果,随后利用向量表征结果对输入文本中每个字符进行标签分类预测,预测每个字符属于各个标签的概率,进而确定每个字符对应的一种标签,并输出初步的标签序列,之后对初步的标签序列进行调整修正得到最终预测的标签序列;
[0034]调整所述第一离线模型中用于对输入文本进行向量表征的子模型的预训练任务,将掩码语言模型任务调整为实体级掩码语言模型任务,并去除下个句子预测任务,增加字符顺序恢复任务;以及去除所述第一离线模型中用于抽取实体分类的包含上下文的文本信息的子模型,得到第二离线模型;
[0035]获取多个搜索词,将各个搜索词作为输入文本输入所述第二离线模型,利用所述第二离线模型识别各个搜索词的标签;
[0036]利用各个搜索词的标签构建所述离线模型预测表。
[0037]在一种可能的实现方式中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于搜索场景的Query标签识别方法,其特征在于,包括:获取搜索请求中的搜索词Query;读取预设的缓存表,其中所述缓存表中包括实体词库和/或离线模型预测表,所述实体词库中包括第一层级实体词与实体标签的对应关系,所述离线模型预测表中包括第二层级实体词与实体标签的对应关系;在所述缓存表的实体词库和/或离线模型预测表中,查找与所述Query匹配的目标实体词,将所述目标实体词对应的实体标签作为所述Query的标签。2.根据权利要求1所述的方法,其特征在于,通过以下步骤构建所述离线模型预测表:获取用于文本标签识别的第一离线模型,其中所述第一离线模型对输入文本进行向量表征得到向量表征结果,随后利用向量表征结果对输入文本中每个字符进行标签分类预测,预测每个字符属于各个标签的概率,进而确定每个字符对应的一种标签,并输出初步的标签序列,之后对初步的标签序列进行调整修正得到最终预测的标签序列;调整所述第一离线模型中用于对输入文本进行向量表征的子模型的预训练任务,将掩码语言模型任务调整为实体级掩码语言模型任务,并去除下个句子预测任务,增加字符顺序恢复任务;以及去除所述第一离线模型中用于抽取实体分类的包含上下文的文本信息的子模型,得到第二离线模型;获取多个搜索词,将各个搜索词作为输入文本输入所述第二离线模型,利用所述第二离线模型识别各个搜索词的标签;利用各个搜索词的标签构建所述离线模型预测表。3.根据权利要求2所述的方法,其特征在于,所述实体级掩码语言模型任务是指随机遮蔽输入文本中预设比例的字符,由用于对输入文本进行向量表征的子模型预测出被遮蔽的原始字符,并且在遮蔽时,若遮蔽的是实体中的字符,则将整个实体进行遮蔽。4.根据权利要求2所述的方法,其特征在于,所述字符顺序恢复任务是指随机打乱输入文本中的字符顺序,由用于对输入文本进行向量表征的子模型预测出原先的字符顺序。5.根据权利要求2至4中任一项所述的方法,其特征在于,所述第二离线模型中的向量表征结果,为用于对输入文本进行向量表征的子模型最后一层中的所有字符的输出向量的平均向量。6.根据权利要求1至5中任一项所述的方法,其特...

【专利技术属性】
技术研发人员:吴晓东
申请(专利权)人:拉扎斯网络科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1