一种关联词推荐方法、装置、电子设备和存储介质制造方法及图纸

技术编号:39292842 阅读:9 留言:0更新日期:2023-11-07 11:00
本申请涉及自然语言处理技术领域,尤其涉及一种关联词推荐方法、装置、电子设备和存储介质,用以提高信息查阅效率。其中,方法包括:接收输入的关键词,并从各原始词中获得与关键词匹配的目标词;从预设的语料库中,获取目标词对应的至少一种类型的原始关联词,以及各原始关联词与目标词的相关度;基于各原始关联词与目标词之间的关联关系和相关度,获得各原始关联词的推荐评估值;基于各推荐评估值,从各原始关联词中筛选出推荐评估值符合预设推荐条件的候选关联词;在展示界面中,呈现筛选出的候选关联词。由于本申请在展示界面中只需呈现筛选出的候选关联词,能够满足对象的关联词查询需求,并减少对展示界面中的占用比例,提高信息查阅效率。高信息查阅效率。高信息查阅效率。

【技术实现步骤摘要】
一种关联词推荐方法、装置、电子设备和存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种关联词推荐方法、装置、电子设备和存储介质。

技术介绍

[0002]目前,当目标对象使用搜索引擎查询一个关键词后,往往还有查阅此关键词的关联词的需求,因此,相关技术下,为了满足关联词查询需求,通常会在关键词的展示界面中进一步展示不同类型的关联词。
[0003]然而,采用上述方式展示关联词,每种类型的关联词都需要占用专属的展示区域,随着关联词数量的增加,各展示区域在展示界面中占用的界面比例也逐步提升,这会严重影响到目标对象对于展示界面中的其他信息的查阅。
[0004]例如,参阅图1所示,假设目标对象输入的关键词为“好”,而关联词包含两种类型,分别为近义词和反义词,在“好”的展示界面中,展示区域1用于展示近义词,包括:佳、美、良、益、优、吉,展示区域2用于展示反义词,包括:坏、差、次、歹、恶、孬。由图1可见,展示区域1和展示区域2挤压了展示界面中其他信息的显示空间,并且,若关联词的类型和数量进一步增加,还将继续挤压其他信息的显示空间,导致目标对象难以快速查阅到需要的内容。

技术实现思路

[0005]本申请实施例提供一种关联词推荐方法、装置、电子设备和存储介质,用以提高信息查阅效率。
[0006]本申请实施例提供的一种关联词推荐方法,包括:
[0007]接收输入的关键词,并从各原始词中获得与所述关键词匹配的目标词;
[0008]从预设的语料库中,获取所述目标词对应的至少一种类型的各原始关联词,以及所述各原始关联词各自与所述目标词的相关度,其中,不同类型的原始关联词,与所述目标词之间的关联关系不同;
[0009]基于所述各原始关联词各自与所述目标词之间的关联关系,和各自的相关度,获得所述各原始关联词各自的推荐评估值;
[0010]基于获得的各推荐评估值,从所述各原始关联词中,筛选出对应的推荐评估值符合预设推荐条件的候选关联词;
[0011]在展示界面中,呈现筛选出的候选关联词。
[0012]本申请实施例提供的一种关联词推荐装置,包括:
[0013]接收单元,用于接收输入的关键词,并从各原始词中获得与所述关键词匹配的目标词;
[0014]获取单元,用于从预设的语料库中,获取所述目标词对应的至少一种类型的各原始关联词,以及所述各原始关联词各自与所述目标词的相关度,其中,不同类型的原始关联词,与所述目标词之间的关联关系不同;
[0015]确定单元,用于基于所述各原始关联词各自与所述目标词之间的关联关系,和各自的相关度,获得所述各原始关联词各自的推荐评估值;
[0016]筛选单元,用于基于获得的各推荐评估值,从所述各原始关联词中,筛选出对应的推荐评估值符合预设推荐条件的候选关联词;
[0017]呈现单元,用于在展示界面中,呈现筛选出的候选关联词。
[0018]可选的,所述至少一种类型包括共现类型,所述共现类型表征:对应的原始关联词与所述目标词的使用场景相似;所述获取单元具体用于:
[0019]基于所述语料库,获得多个待使用语句,并分别将所述多个待使用语句拆分为相应的多个原始词组,其中,每个原始词组包含的至少两个原始词在归属的待使用语句中相邻;
[0020]在获得的各原始词组中筛选出包含所述目标词的各目标词组;
[0021]基于所述各目标词组中除所述目标词之外的其他原始词,获得所述目标词对应的具有共现类型的各原始关联词。
[0022]可选的,所述获取单元具体用于:
[0023]基于各其他原始词,从所述各原始词组中查找所述各目标词组各自的相关词组,其中,所述相关词组包含对应的目标词组中的其他原始词;
[0024]统计所述各相关词组中,除所述其他原始词之外的各相关原始词各自的第二频度信息,其中,所述第二频度信息表征:对应的相关原始词在所述各相关词组中的出现次数;
[0025]基于各第二频度信息,从所述各相关原始词中,筛选出对应的第二频度信息符合第二频度筛选条件的各相关原始词,作为所述目标词对应的具有共现类型的各原始关联词。
[0026]可选的,所述至少一种类型包括近形类型,所述近形类型表征:对应的原始关联词与所述目标词的组成结构相似;所述获取单元具体用于:
[0027]在所述语料库中,分别获得所述目标词与各原始词之间的第一相似度;
[0028]基于获得的各第一相似度,从所述各原始词中,筛选出对应的第一相似度符合第一相似条件的各原始词,作为所述目标词对应的具有近形类型的各原始关联词。
[0029]可选的,所述至少一种类型包括同译类型,所述同译类型表征:对应的原始关联词与所述目标词的释义相似;所述获取单元具体用于:
[0030]从所述语料库中,获得所述目标词的多条释义,和各原始词各自的多条释义;
[0031]基于所述目标词对应的多条释义,和所述各原始词各自的多条释义,确定所述各原始词各自对应的释义集合,每个释义集合包含:相应的原始词对应的多条释义,与所述目标词对应的多条释义之间的相同释义;
[0032]基于各释义集合各自包含的相同释义的数量,从所述各原始词中,筛选出对应的相同释义的数量符合预设释义条件的各原始词,作为所述目标词对应的具有同译类型的各原始关联词。
[0033]可选的,所述至少一种类型包括向量类型,所述向量类型表征:对应的原始关联词的原始词向量与所述目标词的目标词向量的组成结构相似;所述获取单元具体用于:
[0034]从所述语料库中,获得所述目标词向量,和各原始词向量;
[0035]分别确定所述目标词向量,与各原始词向量之间的第二相似度;
[0036]基于确定的各第二相似度,从所述各原始词中,筛选出对应的第二相似度符合第二相似条件的各原始词,作为所述目标词对应的具有向量类型的各原始关联词。
[0037]可选的,所述至少一种类型包括辨析类型,所述辨析类型表征:对应的原始关联词与所述目标词被比较的次数符合预设次数条件;所述获取单元具体用于:
[0038]从所述语料库中,获得多个查询日志数据,每个查询日志数据包含输入的一条查询字符串;
[0039]基于预先构建的正则表达式,从所述各查询字符串中,筛选出符合预设句法规则的各目标字符串,所述目标字符串包含所述目标词;
[0040]基于所述各目标字符串中除所述目标词之外的原始词,获得所述目标词对应的具有辨析类型的各原始关联词。
[0041]可选的,所述获取单元具体用于:
[0042]统计所述各目标字符串中除所述目标词之外的原始词各自的第三频度信息,其中,所述第三频度信息表征:对应的原始词在所述各目标字符串中的出现次数;
[0043]基于各第三频度信息,从所述各目标字符串中除所述目标词之外的原始词中,筛选出对应的第三频度信息符合第三频度筛选条件的原始词,作为所述目标词对应的具有辨析类型的各原始关联词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关联词推荐方法,其特征在于,所述方法包括:接收输入的关键词,并从各原始词中获得与所述关键词匹配的目标词;从预设的语料库中,获取所述目标词对应的至少一种类型的各原始关联词,以及所述各原始关联词各自与所述目标词的相关度,其中,不同类型的原始关联词,与所述目标词之间的关联关系不同;基于所述各原始关联词各自与所述目标词之间的关联关系,和各自的相关度,获得所述各原始关联词各自的推荐评估值;基于获得的各推荐评估值,从所述各原始关联词中,筛选出对应的推荐评估值符合预设推荐条件的候选关联词;在展示界面中,呈现筛选出的候选关联词。2.如权利要求1所述的方法,其特征在于,所述至少一种类型包括共现类型,所述共现类型表征:对应的原始关联词与所述目标词的使用场景相似;所述从预设的语料库中,获取所述目标词对应的至少一种类型的各原始关联词,包括:基于所述语料库,获得多个待使用语句,并分别将所述多个待使用语句拆分为相应的多个原始词组,其中,每个原始词组包含的至少两个原始词在归属的待使用语句中相邻;在获得的各原始词组中筛选出包含所述目标词的各目标词组;基于所述各目标词组中除所述目标词之外的其他原始词,获得所述目标词对应的具有共现类型的各原始关联词。3.如权利要求2所述的方法,其特征在于,所述基于所述各目标词组中除所述目标词之外的其他原始词,获得所述目标词对应的具有共现类型的各原始关联词,包括:统计各其他原始词各自的第一频度信息,其中,所述第一频度信息表征:对应的其他原始词在所述各目标词组中的出现次数;基于各第一频度信息,从所述各其他原始词中,筛选出对应的第一频度信息符合第一频度筛选条件的各其他原始词,作为所述目标词对应的具有共现类型的各原始关联词。4.如权利要求2所述的方法,其特征在于,所述基于所述各目标词组中除所述目标词之外的其他原始词,获得所述目标词对应的具有共现类型的各原始关联词,包括:基于各其他原始词,从所述各原始词组中查找所述各目标词组各自的相关词组,其中,所述相关词组包含对应的目标词组中的其他原始词;统计所述各相关词组中,除所述其他原始词之外的各相关原始词各自的第二频度信息,其中,所述第二频度信息表征:对应的相关原始词在所述各相关词组中的出现次数;基于各第二频度信息,从所述各相关原始词中,筛选出对应的第二频度信息符合第二频度筛选条件的各相关原始词,作为所述目标词对应的具有共现类型的各原始关联词。5.如权利要求1所述的方法,其特征在于,所述至少一种类型包括近形类型,所述近形类型表征:对应的原始关联词与所述目标词的组成结构相似;所述从预设的语料库中,获取所述目标词对应的至少一种类型的各原始关联词,包括:在所述语料库中,分别获得所述目标词与各原始词之间的第一相似度;基于获得的各第一相似度,从所述各原始词中,筛选出对应的第一相似度符合第一相似条件的各原始词,作为所述目标词对应的具有近形类型的各原始关联词。6.如权利要求1所述的方法,其特征在于,所述至少一种类型包括同译类型,所述同译
类型表征:对应的原始关联词与所述目标词的释义相似;所述从预设的语料库中,获取所述目标词对应的至少一种类型的各原始关联词,包括:从所述语料库中,获得所述目标词的多条释义,和各原始词各自的多条释义;基于所述目标词对应的多条释义,和所述各原始词各自的多条释义,确定所述各原始词各自对应的释义集合,每个释义集合包含:相应的原始词对应的多条释义,与所述目标词对应的多条释义之间的相同释义;基于各释义集合各自包含的相同释义的数量,从所述各原始词中,筛选出对应的相同释义的数量符合预设释义条件的各原始词,作为所述目标词对应的具有同译类型的各原始关联词。7.如权利要求1所述的方法,其特征在于,所述至少一种类型包括向量类型,所述向量类型表征:对应的原始关联词的原始词向量与所述目标词的目标词向量的组成结构相似;所述从预设的语料库中,获取所述目标词对...

【专利技术属性】
技术研发人员:杨正彪
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1