一种文本相关主题的推荐方法和装置制造方法及图纸

技术编号:8765526 阅读:204 留言:0更新日期:2013-06-07 22:44
本发明专利技术提供了一种文本相关主题的推荐方法和装置,该方法包括:S?1、获取文本内容,对文本内容进行分词得到Term,计算各个Term的权重,根据Term的权重确定所述文本内容的中心词和辅助词;S2、利用所述中心词到已有的主题集合中进行匹配,将包含所述中心词的主题作为候选主题,构成候选主题集合;S3、根据候选主题对应的资源数和候选主题与所述辅助词的相关性,计算各候选主题的综合权重;S4、将综合权重满足预设要求的候选主题作为推荐的相关主题。相较于现有技术,本发明专利技术能够实现对用户的扩展阅读需求进行推荐,使推荐结果更加准确、更接近用户的使用习惯,满足对相关主题延伸阅读需求。

【技术实现步骤摘要】
一种文本相关主题的推荐方法和装置
本专利技术涉及互联网应用
,特别涉及一种文本相关主题的推荐方法和装置。
技术介绍
随着信息和网络技术的不断发展,网络互动问答平台,如百度知道、新浪爱问、谷歌问答、搜搜问问、雅虎知识堂等,为网民提供了一个可以进行互动交流的平台。用户可以通过知识搜索,查找在日常生活、学习或专业方面遇到的疑问的答案。用户还可以与其他有共同兴趣的人交流,问问题,找答案,互助交流,分享知识。在问答平台中通常有延伸阅读的需求,通过分析发现,用户的延伸阅读可分为对比阅读需求和扩展阅读需求两种。其中,对比阅读需求是指对同一个问题表示的知识点的多种解答的比较,而扩展阅读需求则是指对与问题相关的知识面的获取需求,对有相关联的问题资源的阅读。当前,大部分互动问答平台通过问题的“相关问题”展示在问答平台的问题页上,以问题标题进行检索得到的前N条结果,来满足用户的延伸阅读需求。这种通过检索得到的推荐结果形式只能满足用户的对比阅读需求,只能对于同一问题点进行推荐,并不能从相关主题面上进行推荐,对其扩展阅读需求则无法满足。
技术实现思路
本专利技术提供了一种文本相关主题的推荐方法和本文档来自技高网...
一种文本相关主题的推荐方法和装置

【技术保护点】
一种文本相关主题的推荐方法,其特征在于,包括以下步骤:S1、获取文本内容,对文本内容进行分词得到词项Term,计算各个Term的权重,根据Term的权重确定所述文本内容的中心词和辅助词;S2、利用所述中心词到已有的主题集合中进行匹配,将包含所述中心词的主题作为候选主题,构成候选主题集合;S3、根据候选主题对应的资源数和候选主题与所述辅助词的相关性,计算各候选主题的综合权重;S4、将综合权重满足预设要求的候选主题作为推荐的相关主题。

【技术特征摘要】
1.一种文本相关主题的推荐方法,其特征在于,包括以下步骤:S1、获取文本内容,对文本内容进行分词得到词项Term,计算各个Term的权重,根据Term的权重确定所述文本内容的中心词和辅助词;S2、利用所述中心词到已有的主题集合中进行匹配,将包含所述中心词的主题作为候选主题,构成候选主题集合;S3、根据候选主题对应的资源数和候选主题与所述辅助词的相关性,计算各候选主题的综合权重;S4、将综合权重满足预设要求的候选主题作为推荐的相关主题。2.根据权利要求1所述的方法,其特征在于,所述步骤S1具体包括:获取文本内容;对获取的文本内容进行分词处理,得到Term;基于Term的倒文档率IDF计算各个Term的权重;将权重满足中心词预设要求的Term确定为所述文本内容的中心词;将权重满足辅助词预设要求的Term确定为辅助词。3.根据权利要求2所述的方法,其特征在于,在所述基于Term的倒文档率IDF计算各个Term的权重后,还将各个Term的权重依据所述文本内容的长度进行调权处理。4.根据权利要求2所述的方法,其特征在于,所述中心词预设要求包括:Term的权重排在前N1个;或者,Term的权重大于预设第一阈值Q1;或者,Term的权重大于预设第三阈值Q3且排在前N1个;对应地,辅助词预设要求包括:Term的权重排在前N1+1至前N2个;或者,Term的权重在预设第一阈值Q1和预设第二阈值Q2之间;或者,Term的权重大于预设第三阈值Q3且排在前N1+1至前N2个;其中,N1、N2为预设正整数,且N1<N2,0<Q2<Q1≤1,0<Q3≤1。5.根据权利要求1所述的方法,其特征在于,所述已有的主题集合中采用中心词和标记词的组合表示各个主题,该主题集合的建立包括以下步骤:A1、从用户搜索日志中获取搜索关键词,将所述搜索关键词分成一个或多个Term,并记录各Term在搜索关键词中出现的位置;A2、将步骤A1确定的Term中指向某一实体的Term构成候选中心词集合,将候选中心词集合中在所述搜索关键词的首部没有出现的Term过滤掉,得到中心词集合;A3、将步骤A1确定的Term中描述实体特性的Term构成候选标记词集合,将候选标记词集合中在所述搜索关键词的尾部没有出现的Term过滤掉,得到标记词集合;A4、利用所述中心词集合和标记词集合中的Term得到中心词和标记词的组合,将在所述搜索关键词中没有出现的组合过滤掉,得到主题集合。6.根据权利要求1所述的方法,其特征在于,所述步骤S3包括以下步骤:根据候选主题集合中各个候选主题对应的资源数,计算候选主题的第一权重W1;根据候选主题与辅助词的相关性,计算候选主题的第二权重W2;对计算得到的候选主题的第一权重W1和第二权重W2进行线性加权,得到候选主题的综合权重W。7.根据权利要求6所述的方法,其特征在于,所述候选主题的第一权重W1为:所述候选主题对应的资源数与候选主题集合中各候选主题对应的最大的资源数的比值。8.根据权利要求6所述的方法,其特征在于,所述已有的主题集合中采用中心词和标记词的组合表示各个主题;所述候选主题的第二权重W2为:Ws与Ws_max的比值,其中Ws为所述候选主题的标记词与各所述辅助词之间的相关性之和,Ws_max为针对候选主题集合中各候选主题计算出的Ws的最大值。9.根据权利要求1所述的方法,其特征在于,所述满足预设要求包括:候选主题的综合权重W排在前N3个,N3为预设正整数;或者,候选主题的综合权重W大于预设主题权重阈值Q4,0<Q4≤1。10.根据权利要求1所述的方法,其特征在于,所述已有的主题集合中采用中心词和标记词的组合表示各个主题;在所述步骤S4中还包括依据综合权重对各候选主题进行排序,且在排序时进行以下处理:将所包含标记词在所述文本内容中出现的候选主题的排序提前;或者,将与按照综合权重排在前面的候选主题存在字面重复的候选主题的综合权重降权。11.一种文本相关主题的推荐装置,其特征在于,包括:中心词获取模块,用于获取文本内容,对文本内容进行分词得到词项Term,计算各个Term的权重,根据Term的权重确定所述文本内容的中心词和辅助词;候选主题获取模块,用于利用中心词获取模块获取的中心词到...

【专利技术属性】
技术研发人员:谢双宾薛永刚
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1