【技术实现步骤摘要】
确定消息主题的方法及装置
本专利技术涉及计算机
,具体而言,涉及一种确定消息主题的方法及装置。
技术介绍
目前,在提取社交媒体中的消息主题时,通常是将每条消息作为一篇文章(例如:微信朋友圈中的每一条状态被看成一篇文章),然后利用传统的主题模型来抽取消息的主题。由于传统的主题模型主要是基于文章中的词语共现关系来抽取主题的,而社交媒体中的消息过于简短,因此传统的主题模型性能较差,不能抽取到准确的消息主题。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术实施例的目的在于提供一种确定消息主题的方法及装置,进而至少在一定程度上克服现有技术中无法准确得到消息主题的问题。本专利技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术实施例的一个方面,提供了一种确定消息主题的方法,包括:从待处理的消息集合中获取具有关联关系的多条消息;生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,所述词类别标签的分布模型用于表示具有不同功能标签的消息包含各种类型的词的概率;基于所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型,确定所述主题标签的词分布概率;根据所述主题标签的词分布概率,确定所述多条消息的主题。在本专利技术的一些实施例中,基于前述方案,在从待处理的消息集合中获取具有关联关系的多条消息之前,还包括:将所述待处理的消息集合中的消息按照所述关联关系划分 ...
【技术保护点】
1.一种确定消息主题的方法,其特征在于,包括:从待处理的消息集合中获取具有关联关系的多条消息;生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,所述词类别标签的分布模型用于表示具有不同功能标签的消息包含各种类型的词的概率;基于所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型,确定所述主题标签的词分布概率;根据所述主题标签的词分布概率,确定所述多条消息的主题。
【技术特征摘要】
1.一种确定消息主题的方法,其特征在于,包括:从待处理的消息集合中获取具有关联关系的多条消息;生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,所述词类别标签的分布模型用于表示具有不同功能标签的消息包含各种类型的词的概率;基于所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型,确定所述主题标签的词分布概率;根据所述主题标签的词分布概率,确定所述多条消息的主题。2.根据权利要求1所述的确定消息主题的方法,其特征在于,从待处理的消息集合中获取具有关联关系的多条消息,包括:根据消息之间的回复和/或转发关系,从所述消息集合中获取具有所述回复和/或转发关系的多条消息。3.根据权利要求2所述的确定消息主题的方法,其特征在于,还包括:基于所述多条消息之间的回复和/或转发关系,生成所述多条消息对应的消息树。4.根据权利要求1所述的确定消息主题的方法,其特征在于,生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,包括:生成所述多条消息对应的主题标签的多项式分布,所述多条消息对应的主题标签的多项式分布表示各个主题标签在所述多条消息中出现的概率分布;根据所述多条消息对应的主题标签的多项式分布,生成所述多条消息中每条消息对应的主题标签的分布模型。5.根据权利要求4所述的确定消息主题的方法,其特征在于,所述多条消息对应的主题标签的多项式分布服从狄利克雷分布。6.根据权利要求4所述的确定消息主题的方法,其特征在于,根据所述多条消息对应的主题标签的多项式分布,生成所述多条消息中每条消息对应的主题标签的分布模型,包括:将所述多条消息对应的主题标签的多项式分布作为参数,生成所述每条消息对应的主题标签的多项式分布模型。7.根据权利要求1所述的确定消息主题的方法,其特征在于,生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,包括:生成D维多项式分布πd,所述D维多项式分布πd表示所述多条消息组成的消息树上的父节点的功能标签为d时,所述父节点的子节点的功能标签为D种功能标签的概率分布;以所述D维多项式分布πd为参数,生成所述每条消息对应的功能标签的多项式分布模型。8.根据权利要求1所述的确定消息主题的方法,其特征在于,生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,包括:生成X维多项式分布τd,所述X维多项式分布τd表示所述多条消息中功能标签为d的消息中包含各种类型的词的概率分布,所述各种类型的词包括主题词和功能词,或者包括主题词、功能词和背景词;以所述X维多项式分布τd为参数,生成所述每条消息中的每个词对应的词类别标签的多项式分布模型。9.根据权利要求1所述的确定消息主题的方法,其特征在于,基于所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型,确定所述主题标签的词分布概率,包括:对所述主题标签的...
【专利技术属性】
技术研发人员:李菁,宋彦,
申请(专利权)人:深圳市腾讯计算机系统有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。