基于用户搜索日志的兴趣实体获得方法及装置制造方法及图纸

技术编号:9356683 阅读:62 留言:0更新日期:2013-11-20 23:50
本发明专利技术提供一种基于用户搜索日志的兴趣实体获得方法及装置。本发明专利技术实施例通过对待匹配的Session段中所包括的每个所述用户搜索日志的query和title进行切词处理,以获得每个所述用户搜索日志的第一term,进而根据预先设置的实体库,匹配出与每个所述用户搜索日志的第一term相关的候选实体,使得能够利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,对所述候选实体进行过滤,以获得兴趣实体,由于采用相关匹配方法即匹配出与每个所述用户搜索日志的第一term相关的候选实体,而不再采用完整匹配方法即直接匹配出完整的兴趣实体的名称,从而提高了兴趣实体的召回率。

【技术实现步骤摘要】
基于用户搜索日志的兴趣实体获得方法及装置
本专利技术涉及数据挖掘技术,尤其涉及一种基于用户搜索日志的兴趣实体获得方法及装置。
技术介绍
随着互联网信息技术的发展,用户对获取信息的准确性要求越来越高。为了满足用户的需求,大量内容推荐技术被应用于互联网领域。在进行内容推荐前,首先可以根据用户搜索的历史信息获取用户关注或者感兴趣的实体即兴趣实体,然后利用这些兴趣实体,向用户推荐相应或类似的信息和服务。现有技术中,通过在指定用户的用户搜索日志所划分的会话(Session)段中,直接匹配完整的兴趣实体的名称。其中,Session段是一个逻辑意义,它代表一个用户在某段时间内的一个行为意图,从用户的浏览行为来看,Session段具体可以规约成在语义上具有相同关联的连续搜索行为。然而,在一些情况下,例如,Session段中所包含的词(term)的顺序与兴趣实体中所包含的term的顺序不一致,等情况,使得直接匹配完整的兴趣实体的名称无法获得对应的兴趣实体,从而导致了兴趣实体的召回率的降低。
技术实现思路
本专利技术的多个方面提供一种基于用户搜索日志的兴趣实体获得方法及装置,用以提高兴趣实体的召回率。本专利技术的一方面,提供一种基于用户搜索日志的兴趣实体获得方法,包括:获得待匹配的Session段,所述Session段中包括客户端的至少一个用户搜索日志;对每个所述用户搜索日志的query和title进行切词处理,以获得每个所述用户搜索日志的多个第一term;根据预先设置的实体库,匹配出与每个所述用户搜索日志的所述多个第一term相关的候选实体;利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,对所述候选实体进行过滤,以获得兴趣实体。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据预先设置的实体库,匹配出与每个所述用户搜索日志的第一term相关的候选实体,包括:根据预先设置的实体库,建立实体的倒排索引;根据所述倒排索引,获得与每个所述用户搜索日志的第一term相关的实体;根据所述实体的term重要性权值覆盖率,对所述实体进行排序;选择所述term重要性权值覆盖率最高的指定数量的所述实体,以作为所述候选实体。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,对所述候选实体进行过滤,以获得兴趣实体,包括下列中的至少一项:利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,作为输入,运行GBDT模型,以获得每个所述候选实体的预测label;若所述候选实体的预测label大于或等于预先设置的label阈值,保留所述候选实体,以作为所述兴趣实体,若所述候选实体的预测label小于预先设置的label阈值,过滤掉所述候选实体;根据所述候选实体的预测label、所述候选实体的名称长度、所述候选实体完整匹配的次数、所述候选实体的预设属性是否匹配到所述Session段、以及所述候选实体的所有属性匹配到所述Session段中的个数中的至少一项,获得所述候选实体的排序分数;若所述候选实体的排序分数小于预先设置的第一分数阈值,过滤掉所述候选实体;若所述候选实体的排序分数大于或等于预先设置的第一分数阈值,且小于预先设置的第二分数阈值,若所述候选实体的排序分数大于或等于所述预测label,保留所述候选实体,以作为所述兴趣实体,若所述候选实体的排序分数小于所述预测label,过滤掉所述候选实体;若所述候选实体的排序分数大于或等于预先设置的第二阈值分数,保留所述候选实体,以作为所述兴趣实体;其中,所述第二分数阈值大于所述第一分数阈值;以及根据所述候选实体的名称,确定存在名称包含关系的候选实体,保留包含其他候选实体的名称的候选实体,以作为兴趣实体。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述Session段的特征包括下列中的至少一个:所述Session段所包含的所有第一term的长度之和。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述候选实体的特征包括下列中的至少一个:所述候选实体的名称长度之和;所述候选实体的名称中所包含的所有第二term的term重要性权值之和;以及所述候选实体的名称中所包含的所有第二term的IDF权值之和;其中,所述第二term为对所述候选实体的名称进行切词处理获得。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述Session段与所述候选实体的关联特征包括下列中的至少一个:所述候选实体的名称在所述Session段所包含的所有第一term中出现的所有第二term的长度之和;所述候选实体的名称在所述Session段所包含的所有第一term中出现的所有第二term的长度之和与所述候选实体的名称长度之和的比值;所述候选实体的名称在所述Session段所包含的所有第一term中出现的所有第二term的term重要性权值之和;所述候选实体的名称在所述Session段所包含的所有第一term中出现的所有第二term的term重要性权值之和与所述候选实体的名称中所包含的所有第二term的term重要性权值之和的比值;所述Session段所包含的所有第一term中出现的所述候选实体的名称中所包含的第二term的最大term重要性权值;所述候选实体的名称在所述Session段所包含的所有第一term中出现的所有第二term的IDF权值之和;所述候选实体的名称在所述Session段所包含的所有第一term中出现的所有第二term的IDF权值之和与所述候选实体的名称中所包含的所有第二term的IDF权值之和的比值;所述Session段所包含的所有第一term中出现的所述候选实体的名称中所包含的第二term的最大IDF权值;以及所述Session段所包含的所有第一term中完整匹配所述候选实体的名称的次数;其中,所述第二term为对所述候选实体的名称进行切词处理获得。本专利技术的另一方面,提供一种基于用户搜索日志的兴趣实体获得装置,包括:获得单元,用于获得待匹配的Session段,所述Session段中包括客户端的至少一个用户搜索日志;切词单元,用于对每个所述用户搜索日志的query和title进行切词处理,以获得每个所述用户搜索日志的多个第一term;匹配单元,用于根据预先设置的实体库,匹配出与每个所述用户搜索日志的所述多个第一term相关的候选实体;过滤单元,用于利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,对所述候选实体进行过滤,以获得兴趣实体。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述匹配单元,具体用于根据预先设置的实体库,建立实体的倒排索引;根据所述倒排索引,获得与每个所述用户搜索日志的第一term相关的实体;根据所述实体的term重要性权值覆盖率,对所述实体进行排序;选择所述term重要性权值覆盖率最高的指定数量的所述实体,以作本文档来自技高网...
基于用户搜索日志的兴趣实体获得方法及装置

【技术保护点】
一种基于用户搜索日志的兴趣实体获得方法,其特征在于,包括:获得待匹配的Session段,所述Session段中包括客户端的至少一个用户搜索日志;对每个所述用户搜索日志的query和title进行切词处理,以获得每个所述用户搜索日志的第一term;根据预先设置的实体库,匹配出与每个所述用户搜索日志的第一term相关的候选实体;利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,对所述候选实体进行过滤,以获得兴趣实体。

【技术特征摘要】
1.一种基于用户搜索日志的兴趣实体获得方法,其特征在于,包括:获得待匹配的Session段,所述Session段中包括客户端的至少一个用户搜索日志;对每个所述用户搜索日志的query和title进行切词处理,以获得每个所述用户搜索日志的第一term;根据预先设置的实体库,匹配出与每个所述用户搜索日志的第一term相关的候选实体;利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,对所述候选实体进行过滤,以获得兴趣实体;其中,所述利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,对所述候选实体进行过滤,以获得兴趣实体,包括下列中的至少一项:利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,作为输入,运行GBDT模型,以获得每个所述候选实体的预测label;若所述候选实体的预测label大于或等于预先设置的label阈值,保留所述候选实体,以作为所述兴趣实体,若所述候选实体的预测label小于预先设置的label阈值,过滤掉所述候选实体;以及根据所述候选实体的预测label、所述候选实体的名称长度、所述候选实体完整匹配的次数、所述候选实体的预设属性是否匹配到所述Session段、以及所述候选实体的所有属性匹配到所述Session段中的个数中的至少一项,获得所述候选实体的排序分数;若所述候选实体的排序分数小于预先设置的第一分数阈值,过滤掉所述候选实体;若所述候选实体的排序分数大于或等于预先设置的第一分数阈值,且小于预先设置的第二分数阈值,若所述候选实体的排序分数大于或等于所述预测label,保留所述候选实体,以作为所述兴趣实体,若所述候选实体的排序分数小于所述预测label,过滤掉所述候选实体;若所述候选实体的排序分数大于或等于预先设置的第二阈值分数,保留所述候选实体,以作为所述兴趣实体;其中,所述第二分数阈值大于所述第一分数阈值。2.根据权利要求1所述的方法,其特征在于,所述根据预先设置的实体库,匹配出与每个所述用户搜索日志的第一term相关的候选实体,包括:根据预先设置的实体库,建立实体的倒排索引;根据所述倒排索引,获得与每个所述用户搜索日志的第一term相关的实体;根据所述实体的term重要性权值覆盖率,对所述实体进行排序;选择所述term重要性权值覆盖率最高的指定数量的所述实体,以作为所述候选实体。3.根据权利要求1~2任一权利要求所述的方法,其特征在于,所述Session段的特征包括下列中的至少一个:所述Session段所包含的所有第一term的长度之和。4.根据权利要求1~2任一权利要求所述的方法,其特征在于,所述候选实体的特征包括下列中的至少一个:所述候选实体的名称长度之和;所述候选实体的名称中所包含的所有第二term的term重要性权值之和;以及所述候选实体的名称中所包含的所有第二term的IDF权值之和;其中,所述第二term为对所述候选实体的名称进行切词处理获得。5.根据权利要求1~2任一权利要求所述的方法,其特征在于,所述Session段与所述候选实体的关联特征包括下列中的至少一个:所述候选实体的名称在所述Session段所包含的所有第一term中出现的所有第二term的长度之和;所述候选实体的名称在所述Session段所包含的所有第一term中出现的所有第二term的长度之和与所述候选实体的名称长度之和的比值;所述候选实体的名称在所述Session段所包含的所有第一term中出现的所有第二term的term重要性权值之和;所述候选实体的名称在所述Session段所包含的所有第一term中出现的所有第二term的term重要性权值之和与所述候选实体的名称中所包含的所有第二term的term重要性权值之和的比值;所述Session段所包含的所有第一term中出现的所述候选实体的名称中所包含的第二term的最大term重要性权值;所述候选实体的名称在所述Session段所包含的所有第一term中出现的所有第二term的IDF权值之和;所述候选实体的名称在所述Session段所包含的所有第一term中出现的所有第二term的IDF权值之和与所述候选实体的名称中所包含的所有第二term的IDF权值之和的比值;所述Session段所包含的所有第一term中出现的所述候选实体的名称中所包含的第二term的最大IDF权值;以及所述Session段所包含的所有第一term中完整匹配所述候选实体的...

【专利技术属性】
技术研发人员:戴岱李大任
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1