【技术实现步骤摘要】
文本多标签分析方法、装置、电子设备及存储介质
本专利技术涉及数据处理领域,尤其涉及文本多标签分析方法、装置、电子设备及存储介质。
技术介绍
针对一篇文本的主题含义进行机器自动定义,目前的方式主要为关键词定义或文本分类方式,其中关键词定义方式多为抽取式和生成式,抽取式直接从文本中截取表示文章主题的词,而生成式相对某些欠缺关键表述的文章效果较好,然而由于中文语境的复杂性,比如评论文本“这些只能说明还是不够”,目前较为主流的模型生成式架构seq2seq对这些过于隐含的短文本理解不够暂且不论,服务的响应性能也不能满足线上急剧增长的数据量处理需求。因此,在教育应用场景中,系统地理解文本内容主旨,且能快速地响应系统处理需求,基于文章内容语义的主题模型应运而生,且得到了快速发展的机会。目前的主题模型本质是词袋模型,例如LSI、pLSI,这些模型将文章看成由一堆词组成,词语之间的顺序对其中的主题没有本质影响,即将文章看成是先拟定主题,然后在这些主题下选择相应的主题词组成。LSI使用SVD来对单词-文本矩阵进行分解,SVD可以看作是从 ...
【技术保护点】
1.一种文本多标签分析方法,其特征在于,包括:/n获取训练文本数据,所述训练文本数据包括多篇文本,对所述训练文本数据进行分词;/n使用N-gram对分词进行建模,形成包含多个词语序列集合的文本集合,作为语料库,所述词语序列集合中包含多个由N个词组成的词语序列;/n利用所述语料库对LDA模型进行训练,并对训练结果进行评分验证,选取分值高的LDA模型进行持久化,获得持久化的LDA模型;/n利用持久化的LDA模型提取测试文本数据的主题簇,结合词项半监督方式选取标签,确定所述主题簇的簇标签。/n
【技术特征摘要】
1.一种文本多标签分析方法,其特征在于,包括:
获取训练文本数据,所述训练文本数据包括多篇文本,对所述训练文本数据进行分词;
使用N-gram对分词进行建模,形成包含多个词语序列集合的文本集合,作为语料库,所述词语序列集合中包含多个由N个词组成的词语序列;
利用所述语料库对LDA模型进行训练,并对训练结果进行评分验证,选取分值高的LDA模型进行持久化,获得持久化的LDA模型;
利用持久化的LDA模型提取测试文本数据的主题簇,结合词项半监督方式选取标签,确定所述主题簇的簇标签。
2.根据权利要求1所述的文本多标签分析方法,其特征在于,
所述N-gram的N为2。
3.根据权利要求1所述的文本多标签分析方法,其特征在于,
所述评分验证是采用一致性分数进行验证,所述一致性分数是根据所述持久化的LDA模型获得给定主题下的词项分布,利用词项分布中的所述词语序列来判断其一致性分数C(z,Sz),所述一致性分数的公式如下:
C(z,Sz)=ΣΣ
其中,C(z,Sz)为一致性分数;
z为文本;
Sz为所有文本中词语序列的集合;
D1(t)是词语序列t的文本频率;
D2()是词语序列的共现文本频率;
C值越高,说明具有更好的主题可解释性。
4.根据权利要求1所述的文本多标签分析方法,其特征在于,
所述词项半监督方式是指对每个主题簇对应的所述词语序列的相关性排序,选取排列在设定阈值前的词语序列,构成该主题簇的标签簇,所述词语序列的相关性排序的公式是:
relevance(w|θ)=λ*p(w|t)+(1-λ)*p(w|t)/p(w),
其中relevance(w|θ)表示在主题θ下的词语序列w的相关性;
w表示一个词语序列;
p(w|t)对应该主题簇下的词语序列的分布概率;
p(w)对应该词语序列在整篇文本的分布概率;
λ是可调整参数。
5.根据权利要求1所述的文本多标签分析方法,其特征...
【专利技术属性】
技术研发人员:龚浩,李彦才,李青龙,白剑波,彭璿韜,
申请(专利权)人:北京智慧星光信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。