【技术实现步骤摘要】
一种用户兴趣模型的建立方法及系统
本专利技术涉及互联网应用
,尤其涉及一种用户兴趣模型的建立方法及系统。
技术介绍
随着计算机和网络技术的发展,互联网中所提供的服务种类也在不断完善。为了向用户提供个性化的服务,互联网服务者通常需要通过挖掘用户历史网络行为信息,得到关于各用户兴趣倾向的模型,从而为用户提供有针对性的服务。对于基于文本或与文本相关的互联网服务中,比如网页搜索、博客、网络百科等,通常是采用基于词项(Term)的方式,表述用户的兴趣模型。所谓Term就是自然语言中,具有基本语意特征的文字片段。用户输入的文字、网页的标题、文章的内容、歌曲名称等等都可以认为是由Term组成的。采用Term表述用户的兴趣是因为,每一种语言中的Term是相对稳定的集合,其数量比Query、语句等等要小得多,可节约存储空间;同时Term比更小的语言元素(单个汉字或英语中的字母)具有更丰富的表意性。现有的基于Term的用户兴趣模型通常是采用“Term向量”,即向量空间模型(VectorSpaceModel)的方式进行描述,通过统计用户历史行为,得到表达这个用户兴趣的Te ...
【技术保护点】
一种用户兴趣模型的建立方法,其特征在于,该方法包括:A、根据用户历史行为建立用户的用户兴趣模型,所述用户兴趣模型至少包括:用户兴趣词Term以及各Term的权值;B、根据具体应用的用户历史行为,建立所述应用对应的Term知识集合,所述Term知识集合包括所述应用对应的Term;C、用所述应用对应的Term知识集合对所述用户兴趣模型进行特征调整,得到所述用户在所述应用对应的用户兴趣模型。
【技术特征摘要】
1.一种用户兴趣模型的建立方法,其特征在于,该方法包括:A、根据用户历史行为建立用户的用户兴趣模型,所述用户兴趣模型至少包括:用户兴趣词Term以及各Term的权值;B、根据具体应用的用户历史行为,建立与所述具体应用对应的Term知识集合,所述Term知识集合包括所述具体应用对应的Term;C、用与所述具体应用对应的Term知识集合对所述用户兴趣模型进行特征调整,得到所述用户与所述具体应用对应的用户兴趣模型。2.根据权利要求1所述的方法,其特征在于,步骤A具体包括:A1、获取用户历史行为的文本信息;A2、对用户历史行为的文本信息进行分词;A3、从分词结果中提取表达用户兴趣的Term及Term之间的共现关系,并为Term赋予权值以及为Term之间的共现关系赋予权值,形成所述用户的用户兴趣模型。3.根据权利要求2所述的方法,其特征在于,根据Term的词频或者Term的词频-倒文档率为Term赋予权值,并根据Term之间共同出现的次数为Term之间的共现关系赋予权值。4.根据权利要求1或2或3所述的方法,其特征在于,根据所述用户的兴趣时效性变化,对所述Term的权值进行动态调整;所述动态调整采取以下策略中的至少一种:为用户短时或短期网络行为对应的Term的权值设置上限值;将用户爆发性网络行为对应的Term的权值按照时间进行衰减。5.根据权利要求4所述的方法,其特征在于,所述为用户短时或短期网络行为对应的Term的权值设置上限值具体是:当短时或短期内用户的网络行为出现重复,且使得这段时间内重复行为对应的各个Term的权值总和超过预设的上限值时,则将预设的上限值作为所述各个Term的权值总和,按分配前所述各个Term的权值大小为比例,分配到所述各个Term的权值中。6.根据权利要求4所述的方法,其特征在于,将用户爆发性网络行为对应的Term的权值按照时间进行衰减具体为:将在设定时间段内出现次数相比较在其他时间段内的出现次数高于预设程度的Term的权值按照预设的衰减策略进行衰减,所述预设的衰减策略为:线性衰减或者指数衰减。7.根据权利要求2或3所述的方法,其特征在于,根据所述用户的兴趣时效性变化,对所述Term的权值进行动态调整,所述动态调整的策略是:增加用户重复性网络行为对应的Term的权值。8.根据权利要求7所述的方法,其特征在于,所述用户重复性网络行为的识别条件包括:用户兴趣模型中Term之间的共现关系重复出现,且重复出现的Term之间的共现关系的出现时间间隔超过预设的保护时间间隔。9.根据权利要求3所述的方法,其特征在于,所述Term知识集合还包括:与所述具体应用对应的Term的权值;如果在所述用户兴趣模型中基于Term的词频为Term赋予权值,则在所述Term知识集合中基于Term的词频-倒文档率为Term赋予权值;或者,如果在所述用户兴趣模型中基于词频-倒文档率为Term赋予权值,则在所述Term知识集合中基于Term的词频为Term赋予权值。10.根据权利要求1所述的方法,其特征在于,所述Term知识集合还包括:与所述具体应用对应的Term的权值;所述步骤C具体包括:将所述Term知识集合中不包含的Term从所述用户兴趣模型中过滤掉,且将所述Term知识集合中Term的权值与所述用户兴趣模型中同一Term的权值相乘,得到所述用户与所述具体应用对应的用户兴趣模型。11.根据权利要求10所述的方法,其特征在于,所述步骤C还包括:从所述用户在与所述具体应用对应的用户兴趣模型中按照Term的权值提取满足预设条件的Term并保留提取的Term存在的共现关系,得到所述用户与所述具体应用对应的最终用户兴趣模型;所述预设条件包括:权值排在前N个,N为预设的正整数,或者,权值大于预设的权值阈值。12.一种用户兴趣模型的建立系统,其特征在于,该系统包括:用户兴趣模型建立模块,用于根据用户历史行为建立各用户的用户兴趣模型,所述用户兴趣模型至少包括:用户...
【专利技术属性】
技术研发人员:李楠,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。