一种基于密度词聚类的微博推送方法及装置制造方法及图纸

技术编号:8907150 阅读:168 留言:0更新日期:2013-07-11 04:49
本发明专利技术公开了一种基于密度词聚类的微博推送方法及装置,用以解决现有技术中服务器压力大,浪费网络资源的问题。该方法服务器确定各词汇之间的词间距,据此确定核心词,并针对每个核心词划分词集,再采用OPTICS聚类算法对每个词集中的词汇进行聚类,得到若干个待合并词簇,然后对若干个待合并词簇进行合并得到已合并词簇,最后根据用户的兴趣词所在的已合并词簇以及待推送微博的内容推送待推送微博。上述方法在划分词集时可将具有概括性含义的词汇排除在划分的词集以外,而且聚类时不受初始值的影响,因此可提高聚类的准确性,服务器根据得到的已合并词簇可对待推送微博进行准确的推送,从而可以有效减小服务器压力,也节省了网络资源。

【技术实现步骤摘要】

本专利技术涉及网络
,特别涉及一种基于密度词聚类的微博推送方法及装铬。
技术介绍
目前,微博在社会化媒体中的应用越来越具有影响力,已经成为用户进行信息发布、交流、获取的主要手段之一。对于一个微博用户,服务器除了可以将该用户所关注的其他用户发布的微博推送给该用户以外,还可以根据该用户的兴趣,将与该用户的兴趣相关的微博推送给该用户。具体的,可先设定该用户的兴趣词(可由该用户自己设定,也可由服务器根据该用户浏览、转发、收藏、关注的微博确定该用户的兴趣词),服务器再根据待推送微博的内容,判断该待推送微博是否与该用户的兴趣词相关,如果相关,则将该待推送微博推送给该用户。例如,该用户的兴趣词为“计算机”,服务器则根据待推送微博的内容,判断该待推送微博是否与“计算机”相关,若是,则将该待推送微博推送给该用户。然而,在实际应用中存在多个不同的词所表达的意义相同或相近的情况,如上例中与该用户的兴趣词“计算机”相近的词包括“电脑”、“笔记本”等。如果针对一个待推送微博,仅根据其与该用户的兴趣词是否相关来决定是否将其推送给该用户,势必会造成推送微博的准确性较低。因此,需要对词库中的各词汇进行聚类,也即,将表达的意义相同或相近的词聚集到一起形成词簇。这样,在判断一个待推送微博是否应该被推送给一个用户时,则可以判断该待推送微博的内容是否与该用户的兴趣词所在的词簇相关,再根据判断结果进行推送。可见,对词库中的各词汇进行聚类的准确性直接关系到推送微博的准确性。在现有技术中,一般可采用以下两种聚类算法对词汇进行聚类。一、基于划分的聚类算法,如k-means聚类算法,其方法为,先指定词簇的数量k ;再从词库中随机选择k个词分别作为k个词簇的中心词;然后针对词库中的每个其他词汇,分别计算该词汇与这k个中心词的距离,并确定与该词汇距离最近的中心词,将该词汇分入该中心词所在的词簇;对所有的其他词汇处理完成后,重新确定每个词簇的中心词(同样是k个中心词),并再次计算其他词汇分别与重新确定的k个中心词的距离,根据距离进行词簇的重新划分,如此迭代下去,直至满足某个终止迭代条件为止。但是,采用上述第一种方法聚类的准确性会受到初始指定的词簇数量k的影响,而且,上述方法聚类出的词簇是一个“球形”的词簇,对于得到的一个词簇来说,距离该词簇的中心词最远的词汇往往与该词簇的相关性已经很低。二、基于凝聚式的层次聚类算法,其方法为,在初始阶段将每个词作为一个词簇,然后计算每个词簇之间的距离,合并距离较近的词簇以形成更大的词簇,重新计算每个词簇之间的距离,继续根据词簇之间的距离进行合并,如此迭代下去,直至满足某个终止迭代条件为止。但是,采用上述第二种聚类算法的准确性会受到许多具有概括性含义的词汇的影响,如“公司”、“企业”、“经验”等,这些具有概括性含义的词汇与很多不同类别的词汇都具有一定的相关性,因此,在合并词簇时,往往会由于这些具有概括性的词汇而将两个本不具有相关性的词簇合并在一起。综上所述,现有技术中对词汇进行聚类的准确性较低,从而导致服务器不能对待推送微博进行准确的推送,对于一个用户来说,如果服务器未将与其兴趣相关的待推送微博推送给该用户,则该用户势必会通过搜索等其他方式来搜索这些待推送微博,增大服务器压力,而如果服务器将与其兴趣并不相关的待推送微博推送给该用户,也会造成网络资源的浪费。
技术实现思路
本专利技术实施例提供一种基于密度词聚类的微博推送方法及装铬,用以解决现有技术中服务器压力大,浪费网络资源的问题。本专利技术实施例提供的一种基于密度词聚类的微博推送方法,包括:服务器根据各词汇的共现词集,确定各词汇之间的词间距;并根据各词汇之间的词间距确定核心词;以及针对确定的每个核心词,将与该核心词的词间距最小的N个词汇以及该核心词划分为一个词集,N为预设的第一数量;针对划分出的每个词集,采用OPTICS聚类算法对该词集中的词汇进行聚类,得到若干个待合并词簇;并根据得到的各待合并词簇中的词汇,对得到的各待合并词簇进行合并处理,得到已合并词簇;所述服务器根据用户的兴趣词所在的已合并词簇以及待推送微博的内容,推送所述待推送微博。本专利技术实施例提供的一种基于密度词聚类的微博推送装铬,包括:词间距确定模块,用于根据各词汇的共现词集,确定各词汇之间的词间距;核心词确定模块,用于根据各词汇之间的词间距确定核心词;词集划分模块,用于针对确定的每个核心词,将与该核心词的词间距最小的N个词汇以及该核心词划分为一个词集,N为预设的第一数量;聚类模块,用于针对划分出的每个词集,采用OPTICS聚类算法对该词集中的词汇进行聚类,得到若干个待合并词簇;合并模块,用于根据得到的各待合并词簇中的词汇,对得到的各待合并词簇进行合并处理,得到已合并词簇;推送模块,用于根据用户的兴趣词所在的已合并词簇以及待推送微博的内容,推送所述待推送微博。本专利技术实施例提供一种基于密度词聚类的微博推送方法及装铬,该方法服务器先确定各词汇之间的词间距,据此确定核心词,并针对每个核心词,将与该核心词的词间距最小的N个词汇以及该核心词划分为一个词集,再采用OPTICS聚类算法对每个词集中的词汇进行聚类,得到若干个待合并词簇,然后对若干个待合并词簇进行合并得到已合并词簇,最后根据用户的兴趣词所在的已合并词簇以及待推送微博的内容推送待推送微博。上述方法在划分词集时可将具有概括性含义的词汇排除在划分的词集以外,而且聚类时不受初始值的影响,因此可提高聚类的准确性,服务器根据得到的已合并词簇可对待推送微博进行准确的推送,从而可以有效减小服务器压力,也节省了网络资源。附图说明图1为本专利技术实施例提供的基于密度词聚类的微博推送过程;图2为本专利技术实施例提供的服务器划分词集的过程;图3为本专利技术实施例提供的以词汇P划分的词集示意图;图4为本专利技术实施例提供的两个相交的词集示意图;图5为本专利技术实施例提供的两个互斥的词集示意图;图6为本专利技术实施例提供的两个过度相交的词集示意图;图7为本专利技术实施例提供的采用OPTICS聚类算法对一个词集中的词汇进行聚类的过程;图8为本专利技术实施例提供的基于密度词聚类的微博推送装铬结构示意图。具体实施例方式为了避免具有概括性含义的词汇以及聚类时所输入的初始值(如k-means聚类算法中需要先输入的指定词簇数量k)对聚类结果的影响,本专利技术实施例中先将词库中的各词汇划分为若干个词集,在划分词集时可排除具有概括性含义的词汇(如“公司”、“企业”、“经验”等词汇),再采用无需输入初始值并可根据词汇的密度聚类出任意“形状”词簇的OPTICS聚类算法对每个词集进行聚类,得到待合并词簇,最后将待合并词簇进行合并得到已合并词簇,从而可以提高聚类的准确性,服务器根据得到的已合并词簇可对待推送微博进行准确的推送,因此可以有效减小服务器压力,节省网络资源。下面结合附图对本专利技术优选的实施方式进行详细说明。图1为本专利技术实施例提供的基于密度词聚类的微博推送过程,具体包括以下步骤:SlOl:服务器根据各词汇的共现词集,确定各词汇之间的词间距。在本专利技术实施例中,服务器针对词库中的任意两个词汇,可通过这两个词汇在预料中的上下文分布之间的相似性确定这两个词汇之间的词间距,如果这两个词的上下文分布越相似,则这两个词所表达的含义越相似,二者之间的词间本文档来自技高网
...

【技术保护点】
一种基于密度词聚类的微博推送方法,其特征在于,包括:服务器根据各词汇的共现词集,确定各词汇之间的词间距;并根据各词汇之间的词间距确定核心词;以及针对确定的每个核心词,将与该核心词的词间距最小的N个词汇以及该核心词划分为一个词集,N为预设的第一数量;针对划分出的每个词集,采用OPTICS聚类算法对该词集中的词汇进行聚类,得到若干个待合并词簇;并根据得到的各待合并词簇中的词汇,对得到的各待合并词簇进行合并处理,得到已合并词簇;所述服务器根据用户的兴趣词所在的已合并词簇以及待推送微博的内容,推送所述待推送微博。

【技术特征摘要】

【专利技术属性】
技术研发人员:冯扬姜贵彬宋莉刘莹莹桑军
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1