一种基于密度词聚类的微博推送方法及装置制造方法及图纸

技术编号：8907150 阅读：189 留言：0更新日期：2013-07-11 04:49

本发明专利技术公开了一种基于密度词聚类的微博推送方法及装置，用以解决现有技术中服务器压力大，浪费网络资源的问题。该方法服务器确定各词汇之间的词间距，据此确定核心词，并针对每个核心词划分词集，再采用OPTICS聚类算法对每个词集中的词汇进行聚类，得到若干个待合并词簇，然后对若干个待合并词簇进行合并得到已合并词簇，最后根据用户的兴趣词所在的已合并词簇以及待推送微博的内容推送待推送微博。上述方法在划分词集时可将具有概括性含义的词汇排除在划分的词集以外，而且聚类时不受初始值的影响，因此可提高聚类的准确性，服务器根据得到的已合并词簇可对待推送微博进行准确的推送，从而可以有效减小服务器压力，也节省了网络资源。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络
，特别涉及一种基于密度词聚类的微博推送方法及装铬。
技术介绍
目前，微博在社会化媒体中的应用越来越具有影响力，已经成为用户进行信息发布、交流、获取的主要手段之一。对于一个微博用户，服务器除了可以将该用户所关注的其他用户发布的微博推送给该用户以外，还可以根据该用户的兴趣，将与该用户的兴趣相关的微博推送给该用户。具体的，可先设定该用户的兴趣词(可由该用户自己设定，也可由服务器根据该用户浏览、转发、收藏、关注的微博确定该用户的兴趣词)，服务器再根据待推送微博的内容，判断该待推送微博是否与该用户的兴趣词相关，如果相关，则将该待推送微博推送给该用户。例如，该用户的兴趣词为“计算机”，服务器则根据待推送微博的内容，判断该待推送微博是否与“计算机”相关，若是，则将该待推送微博推送给该用户。然而，在实际应用中存在多个不同的词所表达的意义相同或相近的情况，如上例中与该用户的兴趣词“计算机”相近的词包括“电脑”、“笔记本”等。如果针对一个待推送微博，仅根据其与该用户的兴趣词是否相关来决定是否将其推送给该用户，势必会造成推送微博的准确性较低。因此，需要对词库...

【技术保护点】
一种基于密度词聚类的微博推送方法，其特征在于，包括：服务器根据各词汇的共现词集，确定各词汇之间的词间距；并根据各词汇之间的词间距确定核心词；以及针对确定的每个核心词，将与该核心词的词间距最小的N个词汇以及该核心词划分为一个词集，N为预设的第一数量；针对划分出的每个词集，采用OPTICS聚类算法对该词集中的词汇进行聚类，得到若干个待合并词簇；并根据得到的各待合并词簇中的词汇，对得到的各待合并词簇进行合并处理，得到已合并词簇；所述服务器根据用户的兴趣词所在的已合并词簇以及待推送微博的内容，推送所述待推送微博。

【技术特征摘要】

【专利技术属性】
技术研发人员：冯扬，姜贵彬，宋莉，刘莹莹，桑军，
申请(专利权)人：微梦创科网络科技中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人