【技术实现步骤摘要】
短文本主题识别方法和系统
本专利技术涉及数据处理技术,具体涉及一种短文本主题识别方法和系统。
技术介绍
随着社交媒体和移动应用的快速发展,如微博、Facebook、Twitter和学术网站等正在成为非常受欢迎的社交平台。这些平台往往包含了大量的在线评论数据,这些数据通常内容较少可以被看作是短文本数据。但这类数据数量较多,并且普遍存在随意性语言这对分析该文本对应的主题影响很大。面对这些可用的网络数据,准确发现其对应的主题,对于个性化营销、推荐和信息检索等实际场景具有很高的应用价值。由于大量在线数据的爆发式增长,近年来的研究主要集中在利用大规模的在线数据来推断在线情报,例如,准确理解市场结构对于许多营销管理实践是至关重要的,在真实的市场中,发现可替代的产品可以用指导定价决策、有针对性的广告政策和产品定位。为了降低在线评论这种短文本数据的稀疏性,解决文本聚类问题,提出的T-LDA模型,考虑到短文本数据的特点,检测数据集中的异常值,获取每个集群关注的焦点主题。然而,模型忽略了背景词(背景词类似于介词,出现频率高,并且 ...
【技术保护点】
1.一种短文本主题识别方法,其特征在于,所述方法由计算机执行,包括以下步骤:/nA1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,所述词包括背景词和主题词;/nA2、基于所述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;/nA3、基于所述主题词在短文本下所占权重,选取焦点主题;/n其中,所述主题识别模型的预训练包括以下步骤:/nS1、获取短文本,构建短文本集合D;/nS2、确定所述短文本集合D中的主题个数K;/nS3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分 ...
【技术特征摘要】
1.一种短文本主题识别方法,其特征在于,所述方法由计算机执行,包括以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,所述词包括背景词和主题词;
A2、基于所述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于所述主题词在短文本下所占权重,选取焦点主题;
其中,所述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D;
S2、确定所述短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练。
2.如权利要求1所述的短文本主题识别方法,其特征在于,所述S1具体包括:
获取n条短文本构成的短文本集合D,记为|M|表示短文本集合D中的短文本数量,去除所述短文本集合D中所有停用词;建立向量表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词个数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引。
3.如权利要求2所述的短文本主题识别方法,其特征在于,所述S3具体包括:
S301、对于短文本集合D中的K个主题,获取主题-词分布,按照公式(1)进行抽样,从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布和背景词分布
式(1)中:β和β'是狄利克雷分布的超参数;
S302、构建短文本-主题分布,获取焦点主题,按照公式(2)生成短文本在K个主题中的焦点主题,确定先验分布的参数生成主题分布
式(2)中:
bm,k是主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
πm服从参数为ε0,ε1的Beta分布,πm与构成Beta-Multinomial共轭;
Am∈{k:bm,k=1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合;
表示短文本m对应的焦点主题分布,服从参数为的狄利克雷分布;
α0与α1为分布的超参数,其中α0是平滑先验,用于平滑由主题选择器生成的主题;α1<<α0,其值接近于零,是弱平滑先验,用来控制与相应短文本无关的主题;
S303、基于短文本-主题分布,利用公式(4)生成主题-主题词分布和主题-背景词分布;
式(4)中:
服从参数为γ,γ'的Beta分布,用于选择主题词分布,与构成Beta-Multinomial共轭;
cmn是二元指示变量,服从伯努利分布,决定主题词分布的超参数;
式(5)中:
当cmn=1时,表示短文本m是从主题词分布中生成词n的;
当cmn=0时,表示短文本m是从背景词分布中生成词n的;
式(4)中:
zmn服从多项式分布,表示第m条短文本的第n个词的主题编号;
当cmn=1时,从短文本主题分布生成主题zmn,之后通过主题词分布生成词wmn;
当cmn=0时,从背景主题词分布生成词wmn。
4.如权利要求1所述的短文本主题识别方法,其特征在于,所述A1包括:
A101、将待测短文本集合输入到经过训练的有参贝叶斯模型中,基于进折叠Gibbs抽样算法对待测短文本集合中的bm,k、Zmn、Cmn进行抽样;
A10101、基于贝叶斯法则与共轭先验获取πm和的联合概率分布,计算每篇短文本中的焦点主题情况bm,k,如式(6):
式(6)中:
I[·]是指标函数;
Am是短文本m焦点主题的一个集合,|Am|是Am中主题的数量;
是n条短文本构成的短文本集合m中对应的主题集合;
是指短文本m中对应主题k的词的数量;
对式(6)中变量π进行积分,并用式(7)进行迭代,直至收敛;
式(7)中,
表示主题选择器b分配给短文本集合m的次数;
Γ(x)为伽马函数;
A10102、得到的每篇短文本中的焦点主题情况bm,k后,对每个词wmn抽取对应的主题分布zmn,计算条件概率分布p(Zmn=k|Z-(mn),W),如式(8):
式(8)中:
Z-(mn)表示除单词wmn外所有单词对应的主题;
表示当cmn=1时,单词v被分配到主题k上的次数;
表示当cmn=1时,被分配到主题k上的所有单词数;
表示短文本集合m中被分配到主题k上的单词数;
所有带有公式-(mn)的计数均表示去除了单词wmn;
A10103、对待测短文本集合中的Cmn进行抽样,如式(9):
式(9)中:
表示所有由背景主题词分布生成的单词数;
表示所有由主题词分布生成的单词书;
表示背景主题词分布生成单词v的次数;
表示背景主题词分布生成所有词的次数;
A102、为步骤A101中的中bm,k、Zmn、Cmn随机初始化值;
A10...
【专利技术属性】
技术研发人员:姜元春,李怡,钱洋,刘业政,梁瑞成,孙见山,朱婷婷,汪文娟,刘畅,刘心语,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。