【技术实现步骤摘要】
基于语义索引的意图识别方法
[0001]本专利技术属于搜索
,尤其涉及基于语义索引的意图识别方法。
技术介绍
[0002]智能搜索在Query理解环节解析用户输入,随后依据解析结果实现对内容库的高质量检索和结果的合理排序。意图识别是Query理解中的关键技术。对于较为复杂的搜索引擎,通常其内容库中包含多种类型的文档。用户在一次搜索请求中,大多关注特定的某一种或几种而非全部类型的文档。意图识别的作用就是根据用户输入的搜索词(即Query),预测用户希望检索的文档所属的类型及相应(意愿强度)分布。较好的意图识别一方面能够缩减文档检索的范围,使检索结果更加准确;另一方面能够为检索结果的排序提供重要依据。排序的合理程度直接影响用户满意度。
[0003]目前,主流的意图识别方法主要有两类。第一种是基于字典和规则。离线挖掘用户搜索点击日志,统计<历史Query,点击文档的类别分布>。在线以查字典的方式将用户Query与历史Query匹配,将匹配到的历史Query对应的类别分布作为在线Query的 ...
【技术保护点】
【技术特征摘要】
1.基于语义索引的意图识别方法,其特征在于,包括以下步骤:使用搜索语义模型进行训练用户搜索数据,其中训练数据同时包括单个用户的搜索词序列和单个文档的搜索词序列;对搜索引擎产生的日志进行统计,将日志中历史Query的出现频次超过一定阈值的历史Query建立查询和意图的统计条目;将历史Query输入搜索语义模型,获取语义向量;将语义向量加入统计条目,得到语义意图索引;将在线用户Query输入搜索语义模型,获取Query语义向量v;以在线用户的语义向量v检索所述语义意图索引,获取所述语义意图索引中与在线Query语义最相近的多条记录及相应的语义相似度;融合检索结果,计算得到在线Query的意图识别结果。2.根据权利要求1所述的基于语义索引的意图识别方法,其特征在于,所述搜索语义模型使用Word2vec或FastText的神经网络模型。3.根据权利要求1所述的基于语义索引的意图识别方法,其特征在于,对Query分词时,优先使用领域词库,若没有领域词库,在通用词库的基础上,提取词级别的n
‑
gram特征。4.根据权利要求1所述的基于语义索引的意图识别方法,其特征在于,所述查询和意图的统计条目为<q
i
,intent
i
>,其中intent
i
=*category1:prob1,category2:prob2,
…
+,其中q
i
为第i条Query,intent
i
为第i条意图,category1,category2为第1个和第2个意图,prob1,prob2为第1个和第2个意图的概率。5.根据权利要求4所述的基于语义索引的意图识别方法,其特征在于,所述语...
【专利技术属性】
技术研发人员:高航,胡毅,曹梦华,
申请(专利权)人:湖南兴盛优选网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。