文本多标签分析方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26689809 阅读:15 留言:0更新日期:2020-12-12 02:39
本发明专利技术公开一种文本多标签分析方法、装置、电子设备及存储介质,方法包括:获取训练文本数据,所述训练文本数据包括多篇文本,对所述训练文本数据进行分词;使用N‑gram对分词进行建模,形成包含多个词语序列集合的文本集合,作为语料库,所述词语序列集合中包含多个由N个词组成的词语序列;利用所述语料库对LDA模型进行训练,并对训练结果进行评分验证,选取分值高的LDA模型进行持久化,获得持久化的LDA模型;利用持久化的LDA模型提取测试文本数据的主题簇,结合词项半监督方式定义标签,确定所述主题簇的簇标签。本发明专利技术将LDA和N‑gram相结合,考虑词语的先后顺序,又兼有LDA快速生成主题聚类的特点,可以准确的获得文本的主题簇,获知文本主题含义。

【技术实现步骤摘要】
文本多标签分析方法、装置、电子设备及存储介质
本专利技术涉及数据处理领域,尤其涉及文本多标签分析方法、装置、电子设备及存储介质。
技术介绍
针对一篇文本的主题含义进行机器自动定义,目前的方式主要为关键词定义或文本分类方式,其中关键词定义方式多为抽取式和生成式,抽取式直接从文本中截取表示文章主题的词,而生成式相对某些欠缺关键表述的文章效果较好,然而由于中文语境的复杂性,比如评论文本“这些只能说明还是不够”,目前较为主流的模型生成式架构seq2seq对这些过于隐含的短文本理解不够暂且不论,服务的响应性能也不能满足线上急剧增长的数据量处理需求。因此,在教育应用场景中,系统地理解文本内容主旨,且能快速地响应系统处理需求,基于文章内容语义的主题模型应运而生,且得到了快速发展的机会。目前的主题模型本质是词袋模型,例如LSI、pLSI,这些模型将文章看成由一堆词组成,词语之间的顺序对其中的主题没有本质影响,即将文章看成是先拟定主题,然后在这些主题下选择相应的主题词组成。LSI使用SVD来对单词-文本矩阵进行分解,SVD可以看作是从单词-文本矩阵中发现不相关的索引变量(因子),将原来的数据映射到语义空间内。在单词-文本矩阵中不相似的两个文本,可能在语义空间内比较相似。pLSI是基于概率统计的LSI模型,不同于使用SVD求解,它是用EM算法学习模型参数。针对在线文本的多标签定义应用场景,目前可以应用LDA(一种文档主题生成模型)模型对文章主题及其相关词建模,LDA的优点在于能有效快速地对文本建模,能快速的匹配中文语义,完成对文章堆的主题聚类。然而由于本质也是词袋模型,缺点在于分词如果不准和区域词项变动对结果有本质影响,最终建模的主题词项对应矩阵就很难满足中文语义精准要求。针对以上问题,暂没有较好的解决方案。
技术实现思路
在本专利技术提供一种文本多标签分析方法,包括:获取训练文本数据,所述训练文本数据包括多篇文本,对所述训练文本数据进行分词;使用N-gram对分词进行建模,形成包含多个词语序列集合的文本集合,作为语料库,所述词语序列集合中包含多个由N个词组成的词语序列;利用所述语料库对LDA模型进行训练,并对训练结果进行评分验证,选取分值高的LDA模型进行持久化,获得持久化的LDA模型;利用持久化的LDA模型提取测试文本数据的主题簇,结合词项半监督方式选取标签,确定所述主题簇的簇标签。可选地,所述N-gram的N为2。可选地,所述评分验证是采用一致性分数进行验证,所述一致性分数是根据所述持久化的LDA模型获得给定主题下的词项分布,利用词项分布中的所述词语序列来判断其一致性分数C(z,Sz),所述一致性分数的公式如下:C(z,Sz)=ΣΣ其中,C(z,Sz)为一致性分数;z为文本;Sz为所有文本中词语序列的集合;D1(t)是词语序列t的文本频率;D2()是词语序列的共现文本频率;C值越高,说明具有更好的主题可解释性。可选地,所述词项半监督方式是指对每个主题簇对应的所述词语序列的相关性排序,选取排列在设定阈值前的词语序列,构成该主题簇的标签簇,所述词语序列的相关性排序的公式是:relevance(w|θ)=λ*p(w|t)+(1-λ)*p(w|t)/p(w),其中relevance(w|θ)表示在主题θ下的词语序列w的相关性;w表示一个词语序列;p(w|t)对应该主题簇下的词语序列的分布概率;p(w)对应该词语序列在整篇文本的分布概率;λ是可调整参数。可选地,在所述对所述训练文本数据进行分词时,还去除停用词。可选地,在所述使用N-gram对分词进行建模,形成包含多个词语序列集合的文本集合后,还将所述文本集合与所述训练文本数据进行词语序列的分布统计,过滤掉在一篇文本中出现的频率低于最低频率阈值的词语序列,以及在多篇文本中出现的频率高于最高频率阈值的的词语序列。可选地,在所述获得持久化的LDA模型后,还将持久化的LDA模型结合词项半监督方式进行脚本封装,形成在线文本多标签分析模型部署在服务端,并采用POST方式与客户端之间传输数据,获取客户端发送的文本数据,输出所述文本数据的标签簇给客户端。本专利技术还提供一种文本多标签分析装置,包括:分词模块,用于获取训练文本数据,所述训练文本数据包括多篇文本,对所述训练文本数据进行分词;语料库构建模块,用于使用N-gram对分词进行建模,形成包含多个词语序列集合的文本集合,作为语料库,所述词语序列集合中包含多个由N个词组成的词语序列;LDA模型训练模块,用于利用所述语料库对LDA模型进行训练,并对训练结果进行评分验证,选取分值高的LDA模型进行持久化,获得持久化的LDA模型;主题簇提取模块,用于利用持久化的LDA模型提取测试文本数据的主题簇,结合词项半监督方式选取标签,确定所述主题簇的簇标签。本专利技术还提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的文本多标签分析方法。本专利技术还提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的文本多标签分析方法。本专利技术将LDA和N-gram相结合,利用LDA快速地对文档建模,完成文本的主题聚类的特点,通过N-gram考虑词语的先后顺序的特点形成语料库,并利用该语料库训练LDA模型,使得训练后的模型能够综合了N-gram的考虑词语先后顺序的特点,又能够兼有LDA快速生成主题聚类的特点,可以更加准确的获得文本的主题簇,获知文本主题含义。附图说明图1为本专利技术提供的文本多标签分析方法一实施例的流程示意图;图2为本专利技术提供的文本多标签分析模型的应用流程示意图;图3为本专利技术提供的文本多标签分析装置一实施例的模块示意图;图4为本专利技术提供的实现文本多标签分析方法的电子设备一实施例的结构示意图;本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本实施例的文本多标签分析方法包括以下步骤:S1,获取训练文本数据,所述训练文本数据包括多篇文本,对所述训练文本数据进行分词。分词算法是将句子切分为一系列词语组合的算法,例如“我路过北京大学”可以切分为“我/路过/北京大学”。可以使用北京大学提供的pkuseg分词模型进行分词,由于该模型具有细分的不同领域的预训练模型,并且也支持使用全新的标注数据进行训练,获得自训练模型,可以更加准确的获得分词结果。S2,使用N-gram(大词汇连续语音识别中常用的一种语本文档来自技高网
...

【技术保护点】
1.一种文本多标签分析方法,其特征在于,包括:/n获取训练文本数据,所述训练文本数据包括多篇文本,对所述训练文本数据进行分词;/n使用N-gram对分词进行建模,形成包含多个词语序列集合的文本集合,作为语料库,所述词语序列集合中包含多个由N个词组成的词语序列;/n利用所述语料库对LDA模型进行训练,并对训练结果进行评分验证,选取分值高的LDA模型进行持久化,获得持久化的LDA模型;/n利用持久化的LDA模型提取测试文本数据的主题簇,结合词项半监督方式选取标签,确定所述主题簇的簇标签。/n

【技术特征摘要】
1.一种文本多标签分析方法,其特征在于,包括:
获取训练文本数据,所述训练文本数据包括多篇文本,对所述训练文本数据进行分词;
使用N-gram对分词进行建模,形成包含多个词语序列集合的文本集合,作为语料库,所述词语序列集合中包含多个由N个词组成的词语序列;
利用所述语料库对LDA模型进行训练,并对训练结果进行评分验证,选取分值高的LDA模型进行持久化,获得持久化的LDA模型;
利用持久化的LDA模型提取测试文本数据的主题簇,结合词项半监督方式选取标签,确定所述主题簇的簇标签。


2.根据权利要求1所述的文本多标签分析方法,其特征在于,
所述N-gram的N为2。


3.根据权利要求1所述的文本多标签分析方法,其特征在于,
所述评分验证是采用一致性分数进行验证,所述一致性分数是根据所述持久化的LDA模型获得给定主题下的词项分布,利用词项分布中的所述词语序列来判断其一致性分数C(z,Sz),所述一致性分数的公式如下:
C(z,Sz)=ΣΣ
其中,C(z,Sz)为一致性分数;
z为文本;
Sz为所有文本中词语序列的集合;
D1(t)是词语序列t的文本频率;
D2()是词语序列的共现文本频率;
C值越高,说明具有更好的主题可解释性。


4.根据权利要求1所述的文本多标签分析方法,其特征在于,
所述词项半监督方式是指对每个主题簇对应的所述词语序列的相关性排序,选取排列在设定阈值前的词语序列,构成该主题簇的标签簇,所述词语序列的相关性排序的公式是:
relevance(w|θ)=λ*p(w|t)+(1-λ)*p(w|t)/p(w),
其中relevance(w|θ)表示在主题θ下的词语序列w的相关性;
w表示一个词语序列;
p(w|t)对应该主题簇下的词语序列的分布概率;
p(w)对应该词语序列在整篇文本的分布概率;
λ是可调整参数。


5.根据权利要求1所述的文本多标签分析方法,其特征...

【专利技术属性】
技术研发人员:龚浩李彦才李青龙白剑波彭璿韜
申请(专利权)人:北京智慧星光信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1