一种基于微博的知识推荐方法与系统技术方案

技术编号:10420879 阅读:120 留言:0更新日期:2014-09-12 11:47
本发明专利技术提供了一种基于微博的知识推荐方法及系统,该知识推荐方法包括如下步骤:用户建模、定时批量采集用户关注好友发布的微博、知识条目发现、知识条目扩展、知识推荐。本发明专利技术的有益效果是本发明专利技术提出一种基于微博的知识推荐方法与系统,从用户关注好友所发布的微博数据中自动发现各类知识条目,对知识条目形成扩展解释,在用户阅读微博时,向用户推荐所发现知识条目中对其有价值或其感兴趣的知识条目及相关扩展解释,提供主动的、个性化的知识服务,既能免去了用户的知识检索过程又能避免有价值信息被淹没。

【技术实现步骤摘要】
一种基于微博的知识推荐方法与系统
本专利技术涉及数据处理领域,尤其涉及一种基于微博的知识推荐方法与系统。
技术介绍
微博是一个基于用户关系的信息分享、传播以及获取平台。如今在中国,微博用户已超过3亿,微博日益成为人们获取信息的主要方式。由于微博发布、传播信息的速度很快,微博用户每天面对海量的微博信息。海量微博信息中会涉及到大量的各行业专业技术名称、各学科专业术语、组织机构、人物、地名等知识条目。用户在阅读微博时,如遇到超出自身知识范围的知识条目,通常会利用搜索引擎或者检索百科知识库来获取相关知识信息。现有的通用搜索引擎基于关键词检索,在海量网页信息中检索时,检索结果大都是包含该关键词的网页,很难形成一个系统的、全面的、关于该条目的详细介绍,从而也很难满足用户的知识需求。百科知识库的构建依赖于广大志愿者来人工完成,通常知识条目更新不及时或者知识描述不够完整,当用户检索的词条未被收录时,用户就获取不到相关知识描述。此外,微博上的海量信息让人们享受信息时代快感的同时,也带来了另一问题,即让用户面对大量无用信息。虽然微博用户可以根据自己的兴趣和偏好选择关注自己感兴趣的博主,在一定程度上过滤掉其不感兴趣的大量信息。但是用户所关注的好友也常会发布一些类似生活化直播的无价值的琐碎信息,或者用户不感兴趣的信息。这些信息可能会将对用户有价值或用户感兴趣的专业知识条目淹没。如何从微博用户所面临的海量微博数据中,自动抽取各类知识条目,对知识条目形成扩展解释,在用户阅读微博时向用户推荐对其有价值或其感兴趣的知识条目及相关扩展解释,提供主动的、个性化的知识服务,如何能免去用户的知识检索过程又能避免有价值信息被淹没是一个极待解决的问题。
技术实现思路
为了解决现有技术中的问题,本专利技术提供了一种基于微博的知识推荐方法。本专利技术提供了一种基于微博的知识推荐方法,包括如下步骤:用户建模:分析用户本人所发布的微博以及该用户在微博平台中的社会关系网络,得到用户的知识背景及用户知识兴趣点;定时批量采集用户关注好友发布的微博:使用微博爬虫,针对每个用户,定时批量采集用户关注的所有好友在一个采集周期内发布的微博;知识条目发现:从用户关注好友发布的微博中识别出各类知识条目;知识条目扩展:利用百科知识库获取与该知识条目对应的百科词条,利用搜索引擎获取与该知识条目相关的网页,并抽取对该条目的扩展解释;知识推荐:根据用户的知识背景及知识兴趣点向用户推荐其感兴趣的知识条目及相关扩展解释。作为本专利技术的进一步改进,在所述用户建模步骤中,包括如下步骤:用户知识背景建模:通过分析用户本人所发布的历史微博数据,及其好友所发布的历史微博数据,对用户的知识背景建模;用户知识兴趣建模:通过分析用户在微博平台中的社会关系网络,分析用户的知识兴趣点所在;在所述知识条目发现步骤中,包括如下步骤:微博数据预处理:去除当前采集周期内所采集到的微博内容数据中的噪声;获取知识条目发现模型的训练语料:根据预先确定的待发现知识条目类别人工标注训练语料,或者根据特定类别的种子知识条目从海量微博数据中自动获取训练语料;发现知识条目:将训练得到的知识条目发现模型应用到当前采集周期所采集到的微博数据,发现知识条目。作为本专利技术的进一步改进,在用户知识背景建模步骤中,包括如下步骤:获取用户本人发布的历史微博数据:利用微博爬虫爬取用户历史上所发布的微博;获取用户关注好友所发布的历史微博数据:利用微博爬虫爬取用户所关注的好友历史上所发布的微博数据;获取用户知识背景:分析用户本人所发布的历史微博数据及用户关注好友发布的历史微博数据,得到用户对各类知识条目的了解程度;在用户知识兴趣建模步骤中,包括如下步骤:获取微博平台中用户社会关系网络:获取用户所关注的好友以及用户好友间的关注关系;获取用户知识兴趣:分析用户关注好友的知识背景,通过用户关注好友的知识背景发现用户的知识兴趣点所在。作为本专利技术的进一步改进,在所述知识条目扩展步骤中,包括如下步骤:获取知识条目相应的候选词条:从百科知识库中获取可能与知识条目相对应的所有候选词条;知识条目消歧义:在所有可能与知识条目相对应的候选词条中,找到真正与该知识条目相对应的词条,或者判断出候选词条中没有与其相对应的词条;搜索引擎扩展知识条目:将待扩展的知识条目作为查询,自动获取到搜索引擎的检索结果;检索结果相关度计算:综合搜索引擎的检索结果,得到与该知识条目较相关的检索结果;扩展知识条目:将百科知识库中与该知识条目对应的词条,以及检索结果中与该知识条目较相关的检索结果汇总整合,作为该知识条目的扩展解释;更新知识库:将知识条目及其相应扩展解释添加所构建的知识库中。作为本专利技术的进一步改进,在所述知识推荐步骤中,包括如下步骤:确定待推荐候选知识条目:记录用户上一次登录微博系统到当前登录微博系统的这一时间段,在这一时间段内用户所关注的好友发布的微博中包含的知识条目被视为待推荐候选知识条目;确定待推荐知识条目:对所有待推荐的候选知识条目,根据用户的知识背景以及用户的知识兴趣点计算该知识条目与用户相关度,根据相关度确定在用户当前登录时应推荐的知识条目;获取知识条目相关微博:获取用户上一次登录微博系统到当前登录微博系统的这一时间段内,用户所关注的好友发布的微博中与待推荐知识条目相关的微博;推荐扩展知识:将待推荐的知识条目、相应扩展解释及相关微博推荐给用户。本专利技术还提供了一种基于微博的知识推荐系统,包括:用户建模单元:用于分析用户本人所发布的微博以及该用户在微博平台中的社会关系网络,得到用户的知识背景及用户知识兴趣点;定时批量采集单元:用于使用微博爬虫,针对每个用户,定时批量采集用户关注的所有好友在一个采集周期内发布的微博;知识条目发现单元:用于从用户关注好友发布的微博中识别出各类知识条目;知识条目扩展单元:用于利用百科知识库获取与该知识条目对应的百科词条,利用搜索引擎获取与该知识条目相关的网页,并抽取对该条目的扩展解释;知识推荐单元:用于根据用户的知识背景及知识兴趣点向用户推荐其感兴趣的知识条目及相关扩展解释。作为本专利技术的进一步改进,在所述用户建模单元中,包括:用户知识背景建模单元:用于通过分析用户本人所发布的历史微博数据,及其好友所发布的历史微博数据,对用户的知识背景建模;用户知识兴趣建模单元:用于通过分析用户在微博平台中的社会关系网络,分析用户的知识兴趣点所在;在所述知识条目发现单元中,包括:微博数据预处理单元:用于去除当前采集周期内所采集到的微博内容数据中的噪声;获取知识条目发现模型的训练语料单元:用于根据预先确定的待发现知识条目类别人工标注训练语料,或者根据特定类别的种子知识条目从海量微博数据中自动获取训练语料;发现知识条目单元:用于将训练得到的知识条目发现模型应用到当前采集周期所采集到的微博数据,发现知识条目。作为本专利技术的进一步改进,在用户知识背景建模单元中,包括:获取用户本人发布的历史微博数据单元:用于利用微博爬虫爬取用户历史上所发布的微博;获取用户关注好友所发布的历史微博数据单元:用于利用微博爬虫爬取用户所关注的好友历史上所发布的微博数据;获取用户知识背景单元:用于分析用户本人所发布的历史微博数据及用户关注好友发布的历史微博数据,得到用户对各类知识条目的了解程度;在用户知本文档来自技高网
...
一种基于微博的知识推荐方法与系统

【技术保护点】
一种基于微博的知识推荐方法,其特征在于,包括如下步骤:用户建模:分析用户本人所发布的微博以及该用户在微博平台中的社会关系网络,得到用户的知识背景及用户知识兴趣点;定时批量采集用户关注好友发布的微博:使用微博爬虫,针对每个用户,定时批量采集用户关注的所有好友在一个采集周期内发布的微博;知识条目发现:从用户关注好友发布的微博中识别出各类知识条目;知识条目扩展:利用百科知识库获取与该知识条目对应的百科词条,利用搜索引擎获取与该知识条目相关的网页,并抽取对该条目的扩展解释;知识推荐:根据用户的知识背景及知识兴趣点向用户推荐其感兴趣的知识条目及相关扩展解释。

【技术特征摘要】
1.一种基于微博的知识推荐方法,其特征在于,包括如下步骤:用户建模:分析用户本人所发布的微博以及该用户在微博平台中的社会关系网络,得到用户的知识背景及用户知识兴趣点;定时批量采集用户关注好友发布的微博:使用微博爬虫,针对每个用户,定时批量采集用户关注的所有好友在一个采集周期内发布的微博;知识条目发现:从用户关注好友发布的微博中识别出各类知识条目;知识条目扩展:利用百科知识库获取与该知识条目对应的百科词条,利用搜索引擎获取与该知识条目相关的网页,并抽取对该条目的扩展解释;知识推荐:根据用户的知识背景及知识兴趣点向用户推荐其感兴趣的知识条目及相关扩展解释;在所述用户建模步骤中,包括如下步骤:用户知识背景建模:通过分析用户本人所发布的历史微博数据,及其好友所发布的历史微博数据,对用户的知识背景建模;用户知识兴趣建模:通过分析用户在微博平台中的社会关系网络,分析用户的知识兴趣点所在;在所述知识条目发现步骤中,包括如下步骤:微博数据预处理:去除当前采集周期内所采集到的微博内容数据中的噪声;获取知识条目发现模型的训练语料:根据预先确定的待发现知识条目类别人工标注训练语料,或者根据特定类别的种子知识条目从海量微博数据中自动获取训练语料;发现知识条目:将训练得到的知识条目发现模型应用到当前采集周期所采集到的微博数据,发现知识条目。2.根据权利要求1所述的知识推荐方法,其特征在于,在用户知识背景建模步骤中,包括如下步骤:获取用户本人发布的历史微博数据:利用微博爬虫爬取用户历史上所发布的微博;获取用户关注好友所发布的历史微博数据:利用微博爬虫爬取用户所关注的好友历史上所发布的微博数据;获取用户知识背景:分析用户本人所发布的历史微博数据及用户关注好友发布的历史微博数据,得到用户对各类知识条目的了解程度;在用户知识兴趣建模步骤中,包括如下步骤:获取微博平台中用户社会关系网络:获取用户所关注的好友以及用户好友间的关注关系;获取用户知识兴趣:分析用户关注好友的知识背景,通过用户关注好友的知识背景发现用户的知识兴趣点所在。3.根据权利要求1所述的知识推荐方法,其特征在于,在所述知识条目扩展步骤中,包括如下步骤:获取知识条目相应的候选词条:从百科知识库中获取可能与知识条目相对应的所有候选词条;知识条目消歧义:在所有可能与知识条目相对应的候选词条中,找到真正与该知识条目相对应的词条,或者判断出候选词条中没有与其相对应的词条;搜索引擎扩展知识条目:将待扩展的知识条目作为查询,自动获取到搜索引擎的检索结果;检索结果相关度计算:综合搜索引擎的检索结果,得到与该知识条目较相关的检索结果;扩展知识条目:将百科知识库中与该知识条目对应的词条,以及检索结果中与该知识条目较相关的检索结果汇总整合,作为该知识条目的扩展解释;更新知识库:将知识条目及其相应扩展解释添加所构建的知识库中。4.根据权利要求1所述的知识推荐方法,其特征在于,在所述知识推荐步骤中,包括如下步骤:确定待推荐候选知识条目:记录用户上一次登录微博系统和当前登录微博系统的时间,在这一时间段内用户所关注的好友发布的微博中包含的知识条目被视为待推荐候选知识条目;确定待推荐知识条目:对所有待推荐的候选知识条目,根据用户的知识背景以及用户的知识兴趣点计算该知识条目与用户相关度,根据相关度确定在用户当前登录时应推荐的知识条目;获取知识条目相关微博:获取用户上一次登录微博系统到当前登录微博系统的这一时间段内,用户所关注的好友发布的微博中与待推荐知识条目相关的微博;推荐扩展知识:将待推荐的知识条目、相应扩展解释及相关微博推荐给用户。5.一种基于微博的知识推荐系统,其特征在于,包括:用户建模单...

【专利技术属性】
技术研发人员:陈清财刘胜宇王晓龙汤斌
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1