【技术实现步骤摘要】
语义关联分析模型的生成方法及语义关联分析方法
[0001]本公开涉及人工智能
,尤其涉及一种语义关联分析模型的生成方法及语义关联分析方法。
技术介绍
[0002]移动搜索引擎作为用户从互联网和各类UGC(User
‑
generated Content,用户生产内容)中获取感兴趣信息的工具,已经越来越普及。由于在手机等移动设备上文字输入成本较高、很多类似的UGC内容文本表达多样,所以如果用户在使用移动搜索时通常输入的查询信息存在词不达意或跟想要找的目标点击对象存在一定的语意偏差时,引擎可能就不能有效返回用户想要的目标点击对象,导致用户搜索满意度降低。一般搜索系统会引入一些自动改写推荐的查询信息,为了保证改写推荐的查询信息和原用户输入查询信息之间具有较高的语义相关性,不至于严重漂移。现有技术往往会采用基于语言表示模型对查询信息组合进行编码处理,进而根据事先标注的是否相关的查询信息组合样本,训练语义关联分析模型。但是,现有的模型训练过程中,存在人工标注数据不足、训练数据类别较为单一等问题,导致语义关联分析模型的语义关联分析准确度不足。
技术实现思路
[0003]有鉴于上述存在的技术问题,本公开提出了一种语义关联分析模型的生成方法及语义关联分析方法。
[0004]根据本公开实施例的一方面,提供一种语义关联分析模型的生成方法,包括:
[0005]获取多个历史查询信息和每个历史查询信息对应的查询频率;
[0006]根据所述查询频率,对所述多个历史查询信息进行分类处理 ...
【技术保护点】
【技术特征摘要】
1.一种语义关联分析模型的生成方法,其特征在于,所述方法包括:获取多个历史查询信息和每个历史查询信息对应的查询频率;根据所述查询频率,对所述多个历史查询信息进行分类处理,得到多个查询类型各自对应的查询信息集合;基于任一查询信息集合对应的查询类型,对所述任一查询信息集合进行关联分析,得到所述任一查询信息集合对应的至少一个历史查询信息对以及任一历史查询信息对对应的关联标签信息;所述关联标签信息表征所述任一历史查询信息对中两个历史查询信息的关联程度;基于所述至少一个历史查询信息对和所述关联标签信息,对预设语义关联分析模型进行训练,得到目标语义关联分析模型。2.根据权利要求1所述的方法,其特征在于,所述查询类型包括第一频率类型、第二频率类型和第三频率类型,所述第一频率类型对应的查询频率大于所述第二频率类型对应的查询频率,所述第二频率类型对应的查询频率大于所述第三频率类型对应的查询频率,所述至少一个历史查询信息对包括所述第一频率类型对应的至少一个第一查询信息对、所述第二频率类型对应的至少一个第二查询信息对,以及所述第三频率类型对应的至少一个第三查询信息对;所述方法还包括:获取所述每个历史查询信息对应的查询点击结果集合;所述基于任一查询信息集合对应的查询类型,对所述任一查询信息集合进行关联分析,得到多个历史查询信息对以及任一历史查询信息对对应的关联标签信息,包括:在所述查询类型为所述第一频率类型的情况下,基于所述第一频率类型对应的查询信息集合中每个历史查询信息对应的查询点击结果集合,对所述第一频率类型对应的查询信息集合进行关联分析,得到所述至少一个第一查询信息对以及任一第一查询信息对对应的关联标签信息;所述任一第一查询信息对包括对应的查询点击结果集合存在相同的查询点击结果的两个历史查询信息;在所述查询类型为所述第二频率类型的情况下,基于所述第二频率类型对应的查询信息集合中每个历史查询信息对应的查询点击结果集合,对所述第二频率类型对应的查询信息集合进行关联分析,得到所述至少一个第二查询信息对以及任一第二查询信息对对应的关联标签信息;所述任一第二查询信息对包括对应的查询点击结果集合存在相同的查询点击结果的两个历史查询信息;在所述查询类型为所述第三频率类型的情况下,对所述第三频率类型对应的查询信息集合中每个历史查询信息进行扩充关联分析,得到所述至少一个第三查询信息对以及任一第三查询信息对对应的关联标签信息。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一频率类型对应的查询信息集合中每个历史查询信息对应的查询点击结果集合,对所述第一频率类型对应的查询信息集合进行关联分析,得到所述至少一个第一查询信息对以及任一第一查询信息对对应的关联标签信息,包括:基于所述第一频率类型对应的查询信息集合中每个历史查询信息对应的查询点击结果集合,对所述第一频率类型对应的查询信息集合进行结果关联分析,得到所述至少一个第一查询信息对以及所述任一第一查询信息对对应的点击结果组合信息;
基于所述任一第一查询信息对对应的查询频率和所述任一第一查询信息对对应的点击结果组合信息,对所述任一第一查询信息对进行集合关联分析,得到所述任一第一查询信息对对应的关联标签信息。4.根据权利要求3所述的方法,其特征在于,所述基于所述任一第一查询信息对对应的查询频率和所述任一第一查询信息对对应的点击结果组合信息,对所述任一第一查询信息对进行集合关联分析,得到所述任一第一查询信息对对应的关联标签信息,包括:从所述任一第一查询信息对对应的查询频率中,确定所述任一第一查询信息对对应的目标查询频率;所述目标查询频率为所述任一第一查询信息对对应的查询频率中最大的查询频率;基于所述任一第一查询信息对对应的点击结果组合信息,确定所述任一第一查询信息对中两个历史查询信息各自对应的点击操作数量;从所述点击操作数量中,确定所述任一第一查询信息对对应的目标点击操作数量,所述目标点击操作数量为所述点击操作数量中最小的点击操作数量;基于所述目标查询频率和所述目标点击操作数量,对所述任一第一查询信息对进行关联程度分析,得到所述任一第一查询信息对对应的关联标签信息。5.根据权利要求2所述的方法,其特征在于,所述基于所述第二频率类型对应的查询信息集合中每个历史查询信息对应的查询点击结果集合,对所述第二频率类型对应的查询信息集合进行关联分析,得到所述至少一个第二查询信息对以及任一第二查询信息对对应的关联标签信息,包括:基于所述第二频率类型对应的查询信息集合中每个历史查询信息对应的查询点击结果集合,对所述第二频率类型对应的查询信息集合进行...
【专利技术属性】
技术研发人员:康战辉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。