一种基于用户搜索行为的个性化推荐方法和系统技术方案

技术编号:9434569 阅读:133 留言:0更新日期:2013-12-12 00:37
本申请实施例提供了一种文本训练方法,包括:获取语料库,以及,用户搜索行为测试文档;其中,所述语料库包含多个分类,每个分类包含多个训练文本,所述用户搜索行为测试文档归属所述分类,所述用户搜索行为测试文档包含用户标识,搜索短语及对应的搜索时间;采用每个分类的训练文本生成所述分类的训练特征项,以及,采用所述搜索短语生成所述用户搜索行为测试文档的搜索特征项;针对搜索特征项按照对应的搜索时间配置权重,并依据所述搜索特征项以及所述训练特征项,构建用户喜好特征分类模型。本申请实施例计算简单,计算时间少,计算准确度高,相对应的进行推荐的匹配率高,推荐成功率高。

【技术实现步骤摘要】
【专利摘要】本申请实施例提供了一种文本训练方法,包括:获取语料库,以及,用户搜索行为测试文档;其中,所述语料库包含多个分类,每个分类包含多个训练文本,所述用户搜索行为测试文档归属所述分类,所述用户搜索行为测试文档包含用户标识,搜索短语及对应的搜索时间;采用每个分类的训练文本生成所述分类的训练特征项,以及,采用所述搜索短语生成所述用户搜索行为测试文档的搜索特征项;针对搜索特征项按照对应的搜索时间配置权重,并依据所述搜索特征项以及所述训练特征项,构建用户喜好特征分类模型。本申请实施例计算简单,计算时间少,计算准确度高,相对应的进行推荐的匹配率高,推荐成功率高。【专利说明】一种基于用户搜索行为的个性化推荐方法和系统
本申请实施例涉及数据处理
,特别是涉及一种文本训练方法、一种文本训练系统、一种基于用户搜索行为的喜好特征分类方法、一种基于用户搜索行为的喜好特征分类系统、一种基于用户搜索行为的个性化推荐方法和一种基于用户搜索行为的个性化推荐系统。
技术介绍
因特网Internet的迅猛发展将人们带入了信息社会和网络经济时代,对企业的发展和个人生活都产生了深刻的影响。同时,过量的信息使得人们无法高效地从中获取自己需要的部分,信息的使用效率反而降低。当人们需要获取喜好的信息时,往往要人工进行搜索,然后过滤不相关的信息,菜获取喜好信息。显然,人们不愿意花费太多时间在漫无边际的网上寻找喜好信息,而是希望根据自身的兴趣爱好自动获取系统推荐的且会喜好的信息。因此,计算用户兴趣偏好分类的作用显得十分突出。目前可以根据用户所访问的网站频道或者网页进行兴趣偏好的分类,步骤为:(I)、对频道或者网页进行人工标注,标注其受众所属偏好类型;(2)、统计用户访问的频道或者网页及其次数,按照次数降序排列并获取前N个频道或者网页;其中,N为正整数;(3)、若用户访问了某频道的某个网页,则取上述获取的频道中其他网页进行推荐,或者上述获取的网页中其他同频道的网页进行推荐。对于该方法来说,其分类的准确性取决于在网站频道划分的粒度,粒度过大的情况下,对分类的精准性会产生负面影响。因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提出一种计算用户兴趣特征分类的机制,分类准确率高,可以基于计算结果进行针对性的服务,提高服务的效率。申请内容本申请实施例所要解决的技术问题是提供一种基于用户行为的特征提取的方法及一种基于用户行为的个性化推荐的方法,能够基于用户的行为信息将用户划分为兴趣爱好相近的用户群,并提取出不同用户群的特征,使该特征可以区分不同的用户群,在个性化推荐时跟据此特征快速高效地进行推荐。相应的,本申请实施例还提供了一种基于用户行为的特征提取的系统及一种基于用户行为的个性化推荐的系统,用以保证上述方法的实现及应用。本申请实施例公开了一种文本训练方法,包括:获取语料库,以及,用户搜索行为测试文档;其中,所述语料库包含多个分类,每个分类包含多个训练文本,所述用户搜索行为测试文档归属所述分类,所述用户搜索行为测试文档包含用户标识,搜索短语及对应的搜索时间;采用每个分类的训练文本生成所述分类的训练特征项,以及,采用所述搜索短语生成所述用户搜索行为测试文档的搜索特征项;针对搜索特征项按照对应的搜索时间配置权重,并依据所述搜索特征项以及所述训练特征项,构建用户喜好特征分类模型。优选地,所述采用每个分类的训练文本生成所述分类的训练特征项的步骤包括:在每个分类中,针对每个训练文档进行分词;统计每个分词在所述分类中的出现频次;按照出现频次将所述分词从高到低进行排序;提取预设数量的前M个分词及其出现频次,生成所述分类的训练特征项;其中,M为正整数;所述采用所述搜索短语生成所述用户搜索行为测试文档的搜索特征项的步骤包括:针对每个搜索短语进行分词;统计每个分词的出现频次;按照出现频次将所述分词从高到低进行排序;提取预设数量的前N个分词,生成所述用户搜索行为测试文档的搜索特征项;其中,N为正整数。优选地,所述针对搜索特征项按照对应的搜索时间配置权重,并依据所述搜索特征项以及所述训练特征项,构建用户分类模型的步骤包括:计算各个分类的训练文本占所有训练文本的比例的先验概率;将各个分类的训练特征项的出现频次作为与所述训练特征项相同的搜索特征项在所述分类中的出现频次;采用所述出现频次计算所述各个分类出现所述搜索特征项的第一条件概率;按照搜索时间为对应的搜索特征项配置权重;采用所述权重和所述第一条件概率计算在各个分类出现所述用户搜索行为测试文档的第二条件概率;采用所述先验概率和所述第二条件概率计算用户搜索行为测试文档归属各个分类的后验概率;提取最大的后验概率对应的分类作为用户搜索行为测试文档归属的分类;依据所述用户搜索行为测试文档原归属的分类及当前计算归属的分类,判断是否满足预设条件;若是,则获得最终的用户喜好特征分类模型;若否,则返回所述按照搜索时间为对应的搜索特征项配置权重的子步骤。优选地,所述第一条件概率通过以下公式获得:【权利要求】1.一种文本训练方法,其特征在于,包括: 获取语料库,以及,用户搜索行为测试文档;其中,所述语料库包含多个分类,每个分类包含多个训练文本,所述用户搜索行为测试文档归属所述分类,所述用户搜索行为测试文档包含用户标识,搜索短语及对应的搜索时间; 采用每个分类的训练文本生成所述分类的训练特征项,以及,采用所述搜索短语生成所述用户搜索行为测试文档的搜索特征项; 针对搜索特征项按照对应的搜索时间配置权重,并依据所述搜索特征项以及所述训练特征项,构建用户喜好特征分类模型。2.根据权利要求1所述的方法,其特征在于,所述采用每个分类的训练文本生成所述分类的训练特征项的步骤包括: 在每个分类中,针对每个训练文档进行分词; 统计每个分词在所述分类中的出现频次; 按照出现频次将所述分词从高到低进行排序; 提取预设数量的前M个分词及其出现频次,生成所述分类的训练特征项;其中,M为正整数; 所述采用所述搜索短语生成所述用户搜索行为测试文档的搜索特征项的步骤包括: 针对每个搜索短语进行分词; 统计每个分词的出现频次; 按照出现频次将所述分 词从高到低进行排序; 提取预设数量的前N个分词,生成所述用户搜索行为测试文档的搜索特征项;其中,N为正整数。3.根据权利要求1或2所述的方法,其特征在于,所述针对搜索特征项按照对应的搜索时间配置权重,并依据所述搜索特征项以及所述训练特征项,构建用户分类模型的步骤包括: 计算各个分类的训练文本占所有训练文本的比例的先验概率; 将各个分类的训练特征项的出现频次作为与所述训练特征项相同的搜索特征项在所述分类中的出现频次; 采用所述出现频次计算所述各个分类出现所述搜索特征项的第一条件概率; 按照搜索时间为对应的搜索特征项配置权重; 采用所述权重和所述第一条件概率计算在各个分类出现所述用户搜索行为测试文档的第二条件概率; 采用所述先验概率和所述第二条件概率计算用户搜索行为测试文档归属各个分类的后验概率; 提取最大的后验概率对应的分类作为用户搜索行为测试文档归属的分类; 依据所述用户搜索行为测试文档原归属的分类及当前计算归属的分类,判断是否满足预设条件;若是,则获得最本文档来自技高网...

【技术保护点】
一种文本训练方法,其特征在于,包括:获取语料库,以及,用户搜索行为测试文档;其中,所述语料库包含多个分类,每个分类包含多个训练文本,所述用户搜索行为测试文档归属所述分类,所述用户搜索行为测试文档包含用户标识,搜索短语及对应的搜索时间;采用每个分类的训练文本生成所述分类的训练特征项,以及,采用所述搜索短语生成所述用户搜索行为测试文档的搜索特征项;针对搜索特征项按照对应的搜索时间配置权重,并依据所述搜索特征项以及所述训练特征项,构建用户喜好特征分类模型。

【技术特征摘要】

【专利技术属性】
技术研发人员:罗峰黄苏支李娜
申请(专利权)人:北京亿赞普网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1