确定消息主题的方法及装置制造方法及图纸

技术编号:21773573 阅读:43 留言:0更新日期:2019-08-03 22:05
本发明专利技术的实施例提供了一种确定消息主题的方法及装置。该确定消息主题的方法包括:从待处理的消息集合中获取具有关联关系的多条消息;生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,所述词类别标签的分布模型用于表示具有不同功能标签的消息包含各种类型的词的概率;基于所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型,确定所述主题标签的词分布概率;根据所述主题标签的词分布概率,确定所述多条消息的主题。本发明专利技术实施例的技术方案能够保证得到更加准确的消息主题,提高了确定的消息主题的质量。

Method and Device for Determining Message Subject

【技术实现步骤摘要】
确定消息主题的方法及装置
本专利技术涉及计算机
,具体而言,涉及一种确定消息主题的方法及装置。
技术介绍
目前,在提取社交媒体中的消息主题时,通常是将每条消息作为一篇文章(例如:微信朋友圈中的每一条状态被看成一篇文章),然后利用传统的主题模型来抽取消息的主题。由于传统的主题模型主要是基于文章中的词语共现关系来抽取主题的,而社交媒体中的消息过于简短,因此传统的主题模型性能较差,不能抽取到准确的消息主题。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术实施例的目的在于提供一种确定消息主题的方法及装置,进而至少在一定程度上克服现有技术中无法准确得到消息主题的问题。本专利技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术实施例的一个方面,提供了一种确定消息主题的方法,包括:从待处理的消息集合中获取具有关联关系的多条消息;生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,所述词类别标签的分布模型用于表示具有不同功能标签的消息包含各种类型的词的概率;基于所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型,确定所述主题标签的词分布概率;根据所述主题标签的词分布概率,确定所述多条消息的主题。在本专利技术的一些实施例中,基于前述方案,在从待处理的消息集合中获取具有关联关系的多条消息之前,还包括:将所述待处理的消息集合中的消息按照所述关联关系划分为至少一组消息,所述至少一组消息中的每组消息包含有所述多条消息。在本专利技术的一些实施例中,基于前述方案,根据所述主题标签的词分布概率,确定所述多条消息的主题,包括:对所述主题标签的词分布概率进行排序;按照概率从大到小的顺序,选择至少一个主题词作为所述多条消息的主题。根据本专利技术实施例的一个方面,提供了一种确定消息主题的装置,包括:获取单元,用于从待处理的消息集合中获取具有关联关系的多条消息;模型生成单元,用于生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,所述词类别标签的分布模型表示具有不同功能标签的消息包含各种类型的词的概率分布;处理单元,用于基于所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型,确定所述主题标签的词分布概率;确定单元,用于根据所述主题标签的词分布概率,确定所述多条消息的主题。在本专利技术的一些实施例中,基于前述方案,所述获取单元用于:根据消息之间的回复和/或转发关系,从所述消息集合中获取具有所述回复和/或转发关系的多条消息。在本专利技术的一些实施例中,基于前述方案,所述的确定消息主题的装置还包括:消息树生成单元,用于基于所述多条消息之间的回复和/或转发关系,生成所述多条消息对应的消息树。在本专利技术的一些实施例中,基于前述方案,所述模型生成单元用于:生成所述多条消息对应的主题标签的多项式分布,所述多条消息对应的主题标签的多项式分布表示各个主题标签在所述多条消息中出现的概率分布;根据所述多条消息对应的主题标签的多项式分布,生成所述多条消息中每条消息对应的主题标签的分布模型。在本专利技术的一些实施例中,基于前述方案,所述多条消息对应的主题标签的多项式分布服从狄利克雷分布。在本专利技术的一些实施例中,基于前述方案,所述模型生成单元用于:将所述多条消息对应的主题标签的多项式分布作为参数,生成所述每条消息对应的主题标签的多项式分布模型。在本专利技术的一些实施例中,基于前述方案,所述模型生成单元用于:生成D维多项式分布πd,所述D维多项式分布πd表示所述多条消息组成的消息树上的父节点的功能标签为d时,所述父节点的子节点的功能标签为D种功能标签的概率分布;以所述D维多项式分布πd为参数,生成所述每条消息对应的功能标签的多项式分布模型。在本专利技术的一些实施例中,基于前述方案,所述模型生成单元用于:生成X维多项式分布τd,所述X维多项式分布τd表示所述多条消息中功能标签为d的消息中包含各种类型的词的概率分布,所述各种类型的词包括主题词和功能词,或者包括主题词、功能词和背景词;以所述X维多项式分布τd为参数,生成所述每条消息中的每个词对应的词类别标签的多项式分布模型。在本专利技术的一些实施例中,基于前述方案,所述处理单元用于:对所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型进行迭代抽样,以得到所述主题标签的词分布概率。在本专利技术的一些实施例中,基于前述方案,所述处理单元用于:基于吉布斯采样算法对所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型进行迭代抽样。在本专利技术的一些实施例中,基于前述方案,所述处理单元包括:初始化单元,用于随机初始化所述每条消息的主题标签、功能标签和所述每条消息中的每个词的词类别标签;抽样单元,用于在一次迭代的过程中,基于所述每条消息对应的主题标签的分布模型和功能标签的分布模型,对所述每条消息进行主题标签和功能标签的抽样,并基于所述每条消息对应的词类别标签的分布模型对所述每条消息中的每个词进行词类别标签的抽样。在本专利技术的一些实施例中,基于前述方案,所述抽样单元用于:在所述多条消息中的各条消息的词类别标签,以及所述多条消息中的其它消息的主题标签和功能标签已知的基础上,基于所述主题标签的分布模型和所述功能标签的分布模型对所述每条消息的主题标签和功能标签进行联合抽样。在本专利技术的一些实施例中,基于前述方案,所述抽样单元用于:在所述多条消息中的各条消息的词类别标签和主题标签,以及所述多条消息中的其它消息的功能标签已知的基础上,基于所述功能标签的分布模型对所述每条消息的功能标签进行抽样;以及在所述多条消息中的各条消息的词类别标签和功能标签,以及所述多条消息中的其它消息的主题标签已知的基础上,基于所述主题标签的分布模型对所述每条消息的主题标签进行抽样。在本专利技术的一些实施例中,基于前述方案,所述抽样单元用于:在所述多条消息中的各条消息的主题标签和功能标签,以及所述多条消息中的其它消息的词类别标签已知的基础上,基于所述词类别标签的分布模型对所述每条消息中的每个词的词类别标签进行抽样。在本专利技术的一些实施例中,基于前述方案,所述的确定消息主题的装置还包括:划分单元,用于将所述待处理的消息集合中的消息按照所述关联关系划分为至少一组消息,所述至少一组消息中的每组消息包含有所述多条消息。在本专利技术的一些实施例中,基于前述方案,所述确定单元包括:排序单元,用于对所述主题标签的词分布概率进行排序;选择单元,用于按照概率从大到小的顺序,选择至少一个主题词作为所述多条消息的主题。根据本专利技术实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的确定消息主题的方法。根据本专利技术实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的确定消息主题的方法。本专利技术实施例提供的技术方案可以包括以下有益效果:在本专利技术本文档来自技高网...

【技术保护点】
1.一种确定消息主题的方法,其特征在于,包括:从待处理的消息集合中获取具有关联关系的多条消息;生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,所述词类别标签的分布模型用于表示具有不同功能标签的消息包含各种类型的词的概率;基于所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型,确定所述主题标签的词分布概率;根据所述主题标签的词分布概率,确定所述多条消息的主题。

【技术特征摘要】
1.一种确定消息主题的方法,其特征在于,包括:从待处理的消息集合中获取具有关联关系的多条消息;生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,所述词类别标签的分布模型用于表示具有不同功能标签的消息包含各种类型的词的概率;基于所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型,确定所述主题标签的词分布概率;根据所述主题标签的词分布概率,确定所述多条消息的主题。2.根据权利要求1所述的确定消息主题的方法,其特征在于,从待处理的消息集合中获取具有关联关系的多条消息,包括:根据消息之间的回复和/或转发关系,从所述消息集合中获取具有所述回复和/或转发关系的多条消息。3.根据权利要求2所述的确定消息主题的方法,其特征在于,还包括:基于所述多条消息之间的回复和/或转发关系,生成所述多条消息对应的消息树。4.根据权利要求1所述的确定消息主题的方法,其特征在于,生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,包括:生成所述多条消息对应的主题标签的多项式分布,所述多条消息对应的主题标签的多项式分布表示各个主题标签在所述多条消息中出现的概率分布;根据所述多条消息对应的主题标签的多项式分布,生成所述多条消息中每条消息对应的主题标签的分布模型。5.根据权利要求4所述的确定消息主题的方法,其特征在于,所述多条消息对应的主题标签的多项式分布服从狄利克雷分布。6.根据权利要求4所述的确定消息主题的方法,其特征在于,根据所述多条消息对应的主题标签的多项式分布,生成所述多条消息中每条消息对应的主题标签的分布模型,包括:将所述多条消息对应的主题标签的多项式分布作为参数,生成所述每条消息对应的主题标签的多项式分布模型。7.根据权利要求1所述的确定消息主题的方法,其特征在于,生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,包括:生成D维多项式分布πd,所述D维多项式分布πd表示所述多条消息组成的消息树上的父节点的功能标签为d时,所述父节点的子节点的功能标签为D种功能标签的概率分布;以所述D维多项式分布πd为参数,生成所述每条消息对应的功能标签的多项式分布模型。8.根据权利要求1所述的确定消息主题的方法,其特征在于,生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,包括:生成X维多项式分布τd,所述X维多项式分布τd表示所述多条消息中功能标签为d的消息中包含各种类型的词的概率分布,所述各种类型的词包括主题词和功能词,或者包括主题词、功能词和背景词;以所述X维多项式分布τd为参数,生成所述每条消息中的每个词对应的词类别标签的多项式分布模型。9.根据权利要求1所述的确定消息主题的方法,其特征在于,基于所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型,确定所述主题标签的词分布概率,包括:对所述主题标签的...

【专利技术属性】
技术研发人员:李菁宋彦
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1