本发明专利技术提供一种微博话题标签自动化描述方法,该方法包括:从多个微博信息中提取话题标签,保存所述话题标签与提取所述话题标签的微博信息的对应关系;获取任意两个话题标签的相似度,并根据所述相似度对全部话题标签进行聚类;根据每一聚类的话题标签,获取同一聚类的话题标签的关注点;根据所述同一聚类的话题标签的关注点对所述同一聚类的各话题标签进行自动化描述。本发明专利技术的微博话题标签自动化描述方法,通过微博话题标签的相似度获取话题标签的关注点,进而快速、准确的对话题标签进行自动化描述。
【技术实现步骤摘要】
本专利技术涉及计算机网络
,尤其涉及一种。
技术介绍
微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台。微博用户可以通过WEB、WAP (Wireless Application Protocol,无线应用协议)以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享,拥有海量用户和数据。微博的话题标签是微博信息中添加于两个“ # ”之间的内容,用于概括描述该微博信息的话题内容。为了让更多的微博用户了解各话题标签所对应的微博信息所讨论的内容,各微博平台的运营方会对各话题标签进行自动化描述。目前由于话题标签的同义性、话题标签的时序性、微博信息短小并且多噪以及海 量数据的处理等原因,话题标签生成自动化的描述准确性差并且效率低。
技术实现思路
本专利技术提供了一种,以提高微博话题标签生成自动化的描述的准确性及效率。为实现本专利技术的目的,本专利技术提供了一种,包括从多个微博信息中提取话题标签,保存该话题标签与提取该话题标签的微博信息的对应关系;获取任意两个话题标签的相似度,并根据该相似度对所有话题标签进行聚类;根据每一聚类的话题标签,获取同一聚类的话题标签的关注点;根据同一聚类的话题标签的关注点对同一聚类的各话题标签进行自动化描述。本专利技术的,通过微博话题标签的相似度获取话题标签的关注点,进而快速、准确的对话题标签进行自动化描述。附图说明图I为本专利技术的的实施例的流程图;图2为本专利技术的的又一实施例的流程图;图3为本专利技术的的又一实施例的流程图;图4为本专利技术的的又一实施例的流程图。具体实施例方式下面结合附图与实施例对本专利技术做进一步的描述。图I为本专利技术的的实施例的流程图,本实施例具体可适用于对微博话题的自动化描述,以软件和/或硬件的形式来实现,本实施例的的具体步骤如下SlO :从多个微博信息中提取话题标签,保存该话题标签与提取该话题标签的微博信息的对应关系。微博信息中的话题标签通常为两个“#”之间的文字,如以下这条微博信息儿童节回忆#那些年我们一起上的学(I)语文考完了,我哭了。数学考完了,我发现我哭早了。2)医生,我最近睡不着心情坏,吃不下饭,我肿么了?医生问你今年多大了?我15岁。医生说你作业没做完吧……”其中的“儿童节回忆”即为该条微博信息的话题标签。通常,一条微博信息对应一个话题标签,当然也可能没有话题标签,还可能一条微博信息对应多个话题标签。本实施例中,可通过识别微博信息中字符,获取微博信息的话题标签,再保存该话题标签与该条微博信息的对应关系。S20 :获取任意两个话题标签的相似度,并根据该相似度对所有话题标签进行聚类。 通过获取话题标签之间的相似度,相似度高的话题标签可能关注的是相同的内容,再根据该相似度利用层次聚类的方法对话题标签进行聚类。整个聚类过程通过话题标签的相似度矩阵来将它们按照自底向上方法聚成一个二叉树的层次结构。首先,每一个话题标签作为一个单点类。然后,在每一次迭代中,两个相似度最高的话题标签合并成一个新类,最相似的两个类之间的相似度无法满足预设阈值的时候,停止聚类。相似度衡量使用平均相似度,即两个类中结点两两之间相似度的平均值。S30 :根据每一聚类的话题标签,获取同一聚类的话题标签的关注点;根据聚类的话题标签,获得每一类话题标签对应的微博信息集合,通过对该微博信息集合中微博信息数量在时间上的分布进行变换获得归一化的分布,当该分布高于预设的分布阈值时,其所对应的话题标签即为一个关注点。S40:根据同一聚类的话题标签的关注点对同一聚类的各话题标签进行自动化描述。判断该关注点对应微博信息中的句子和词语的重要度,该重要度高于预设重要度阈值的句子和/或词语具有摘要性质,即可作为对其所在话题标签的描述。较佳的,步骤S20之前,还包括步骤A :从提取的话题标签中滤去无意义话题标签。对获取的微博话题标签进行过滤,将没有意义的话题标签滤去,以提高对微博话题标签自动化描述的效率。优选地,作为一种可实施方式,步骤A从提取的话题标签中滤去无意义话题标签具体包括步骤B :滤去对应的微博信息数量低于预设阈值的话题标签。滤去无意义的话题标签,即滤去对应的微博信息数量低于预设阈值的话题标签。例如某个话题标签,可能相应的微博信息仅有2条,说明该话题标签的关注度极低,对这类话题标签进行自动描述的意义不大,则直接过滤掉此类话题标签。本实施例中,通过微博话题标签的相似度对话题标签进行聚类,根据聚类的话题标签获取每一类话题标签的关注点,进而根据关注点快速、准确的对话题标签进行自动化描述。图2为本专利技术的的又一实施例的流程图,如图2所示,在前述实施例的基础上,步骤S20中获取任意两个话题标签的相似度的操作具体包括以下步骤S201 :获取任意两个话题标签的字符串相似度、文本特征相似度、时间分布相似度。各个话题标签之间的字符串具有相似性,而描述同一话题的话题标签本身的字符串倾向于相似。以“#MurdochPhoneHacking#”和“#MurdochScandal#”为例,两者都包含“Murdoch”这个单词。两个字符串之间的相似度可以用编辑距离来描述。给定两个话题标签比和hj;它们的编辑距离EDij的定义为将Iii转化为比(或者比转化为hi)的最小次数的编辑操作,包括替换、增加、删除一个字符。则可根据权利要求1.一种,其特征在于,包括 从多个微博信息中提取话题标签,保存所述话题标签与提取所述话题标签的微博信息的对应关系; 获取任意两个话题标签的相似度,并根据所述相似度对所有话题标签进行聚类; 根据每一聚类的话题标签,获取同一聚类的话题标签的关注点; 根据所述同一聚类的话题标签的关注点对所述同一聚类中的各话题标签进行自动化描述。2.根据权利要求I所述的方法,其特征在于,所述获取任意两个话题标签的相似度之前,还包括 从所述提取的话题标签中滤去无意义话题标签。3.根据权利要求2所述的方法,其特征在于,所述从所述提取的话题标签中滤去无意义话题标签具体包括 滤去对应的微博信息数量低于预设阈值的话题标签。4.根据权利要求I所述的方法,其特征在于,所述获取任意两个话题标签的相似度包括 获取任意两个话题标签的字符串相似度、文本特征相似度、时间分布相似度; 根据每两个话题标签的所述字符串相似度、文本特征相似度和时间分布相似度获取所述两个话题标签的相似度。5.根据权利要求I所述的方法,其特征在于,所述根据每一聚类的话题标签,获取同一聚类的话题标签的关注点包括 获取同一聚类中的各话题标签对应的微博信息数量随微博发布时间变化的微博时间分布集合,所述微博时间分布集合中的各元素分别为在预设周期内的各统计时间段发布的所述各话题标签对应的微博信息的数量; 获取所述微博时间分布集合的香农小波能量的归一化值; 根据所述的香农小波能量的归一化值获取所述微博时间分布集合的归一化分布; 根据所述微博时间分布集合的归一化分布获取所述同一聚类的话题标签的关注点。6.根据权利要求I所述的方法,其特征在于,所述根据所述同一聚类的话题标签的关注点对所述同一聚类中的各话题标签进行自动化描述包括 根据所述同一聚类的话题标签的关注点,获取所述同一聚类中的各话题标签对应微博信息中的句子集合与词语集合; 获取所述句子集合与所述词语集合中本文档来自技高网...
【技术保护点】
一种微博话题标签自动化描述方法,其特征在于,包括:从多个微博信息中提取话题标签,保存所述话题标签与提取所述话题标签的微博信息的对应关系;获取任意两个话题标签的相似度,并根据所述相似度对所有话题标签进行聚类;根据每一聚类的话题标签,获取同一聚类的话题标签的关注点;根据所述同一聚类的话题标签的关注点对所述同一聚类中的各话题标签进行自动化描述。
【技术特征摘要】
【专利技术属性】
技术研发人员:杜小勇,刘红岩,何军,江璇,祝锐,
申请(专利权)人:杜小勇,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。