当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种分析文本数据潜在主题短语的方法及系统技术方案

技术编号:21892210 阅读:41 留言:0更新日期:2019-08-17 14:37
本发明专利技术公开了一种分析文本数据潜在主题短语的方法及系统,该方法包括:采集文本数据集,并对文本数据集进行分词,得到文本数据集的词语表现形式;根据文本数据集的词语提取词语搭配后形成的有效短语,得到未搭配成有效短语的词语与短语集的混合表现形式;对混合表现形式的文本数据集进行词向量训练后得到对应的词向量模型;构建DR‑Phrase LDA并求解各个参数;对DR‑Phrase LDA训练,并根据训练结果输出文本数据潜在的主题短语。本发明专利技术采用基于词向量的短语主题模型,该模型在概率主题模型训练中借助汉语言学规律来合理提升模型训练中短语的统计信息,具体采用词向量的方法度量短语成分词之间的关系,定量反映词在文本整体和短语局部中的语义关系,使得模型精度更高。

A Method and System for Analyzing Potential Topic Phrases of Text Data

【技术实现步骤摘要】
一种分析文本数据潜在主题短语的方法及系统
本专利技术涉及文本数据挖掘分析领域,具体涉及一种分析文本数据潜在主题短语的方法及系统。
技术介绍
随着信息技术的发展,各个领域累积了大量的电子文本,导致了信息过载。为了帮助人们快速检索、查找和有效利用这些信息,文本语义及结构分析成为当今研究热点之一。其中从文本数据中分析潜在的主题信息,是信息检索、推荐系统、自动文摘等高级应用系统的关键技术之一。现有的常用方法采用LDA、PLDA等传统以“词袋”为基础的概率主题模型进行文本主题分析。这些方法分析所得的主题结果以主题词形式呈现,而人类自然语言习惯以短语块形式表达语义,因此这些方法获取的主题结果存在可读性、一致性和可视化差等缺陷。目前同类方法有两种策略:第一种先从文本数据中提取短语后再训练主题模型,由于短语缺乏统计信息导致这类方法在模型训练过程短语出现概率极低,无法有效体现在主题短语结果中;第二种先训练主题模型获取主题词,再有主题词合成短语,由于汉语用词灵活多变,这种后期合成的主题短语质量也较差。
技术实现思路
专利技术目的:为了克服现有技术的不足,本专利技术提供一种分析文本数据潜在主题短语的方法,该方本文档来自技高网...

【技术保护点】
1.一种分析文本数据潜在主题短语的方法,其特征在于,该方法包括:(1)采集文本数据集,并对所述文本数据集进行分词,得到文本数据集的词语表现形式;(2)根据文本数据集的词语提取词语搭配后形成的有效短语,得到未搭配成有效短语的词语与短语集的混合表现形式;(3)对混合表现形式的文本数据集进行词向量训练后得到对应的词向量模型;(4)构建基于词向量的短语主题模型DR‑Phrase LDA并求解各个参数;(5)对所述DR‑Phrase LDA训练,并根据训练结果输出文本数据潜在的主题短语。

【技术特征摘要】
1.一种分析文本数据潜在主题短语的方法,其特征在于,该方法包括:(1)采集文本数据集,并对所述文本数据集进行分词,得到文本数据集的词语表现形式;(2)根据文本数据集的词语提取词语搭配后形成的有效短语,得到未搭配成有效短语的词语与短语集的混合表现形式;(3)对混合表现形式的文本数据集进行词向量训练后得到对应的词向量模型;(4)构建基于词向量的短语主题模型DR-PhraseLDA并求解各个参数;(5)对所述DR-PhraseLDA训练,并根据训练结果输出文本数据潜在的主题短语。2.根据权利要求1所述的分析文本数据潜在主题短语的方法,其特征在于,所述步骤(2)中,所述有效短语包括n元短语,n元为组成短语的词语个数,所述根据文本数据集的词语提取词语搭配后形成的有效短语,具体包括:(21)统计文本数据集的双词语或短语搭配共现频率,构成二元短语候选集;(22)计算二元短语候选集score(wi,wj)分值,选取分值高的前m个构成正式的二元短语,并加入到短语集中,同时在步骤(1)所述的文本数据集的词语表现形式中更新相应的词语为所得短语;(23)迭代步骤(21)(22)计算得到的所述二元短语与其他词语或短语搭配组成的n元短语,依次加入到短语集中。3.根据权利要求1所述的分析文本数据潜在主题短语的方法,其特征在于,所述步骤(4)中,DR-PhraseLDA模型为概率生成模型,DR-PhraseLDA实现文本生成的过程为:首先文本数据集D中有M篇文本,从超参数为α的狄利克雷分布中取样生成文本d的主题分布θd;从主题的多项式分布θd中取样生成文本d中词语或短语的主题参数z,主题编号记为zmn;从超参数为β狄利克雷分布中取样生成主题z相应的词语或短语分布其中,所有文本共享K个主题;从词语的多项式分布中采样生成词语或短语t。4.根据权利要求3所述的分析文本数据潜在主题短语的方法,其特征在于,所述词语或短语的主题参数z的计算采用吉布斯采样近似求解方法完成,表示为:其中,采样过程中文档d当前位置词语或者有效短语表示为t,记为term,k表示被分配的主题编号,K为预设的主题个数,Nt为文本数据集中的总term数,nk/d表示文档d中主题k的计数,nt/k表示主题k中t的计数,nr表示t的语义相关term的个数,ntr表示t的相关term个数,α和β为Dirichlet超参数,α,β分别为α和β对应的向量。所述文本数据集中的某篇文本d中潜在的主题比例θd表示为:所述编号为k的主题所包含term概率值表示为:5.根据权利要求4所述的分析文本数据潜在主题短语的方法,其特征在于,所述步骤(5)中,包括:(51)对所述DR-PhraseLDA模型训练,训练步骤包括:输入:未搭配成有效短语的词语与短语集的混合表现形式的文本数据集,已训练所得的词向量模型及DR-PhraseLDA模型的狄利克雷分布超参数α,狄利克雷分布超参数β,主题个数K;迭代次数IterNum;短语wp语义相似度最大的前γ个对应的取值;短语wp的长度计数调节参数μ;训练过程:遍历文本数据集中每个文本中的词语或有效短语t对应的编号;若t为有效短语,则增加所述短语wp被抽到主题k后的计数C(wp);同时遍历与wp语义相似度最大的前γ个词集,并相应增加该词集中所有词分配到主题k下的计数C(wi);否则,若t为实词词语,且存在语义相关短语,则增加词语t在主题k的计数C(w),同时增加该词语作为语义背景的有效短语在主题k下的计数否则,若t为虚词词语,则对应的计数减1;迭代上述步骤至设定的次数IterNum;输出:文本数据集中的所有词语和有效短语的主题编号二维矩阵z;(52)根据训练结果输出文本数据潜在的主题短语,具体包括:根据某篇文本d中潜在的主题比例θd统计可得每一篇文本的主题比例概率值矩阵θ:θ={θ(m,k),m∈{0,..M-1},k∈{0,..K-1}}其中,M为文本数据集文本总的文本数量;K为主题数。根据编号为k的主题所包含term概率值统计可得每个主题与term的概率值矩阵其中,Nt为文本数据集的总term数。6.根据权利要求5所述的分析文本...

【专利技术属性】
技术研发人员:马甲林张琳程清雯
申请(专利权)人:淮阴工学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1