文本主题分析方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34533605 阅读:59 留言:0更新日期:2022-08-13 21:27
本发明专利技术提供了一种文本主题分析方法、装置、电子设备及存储介质,其中方法包括:确定所需实现的若干个分析主题以及对应的分析结果标签范围;获取包含多个样本文本的训练样本集;每一个样本文本可对应至少一个分析主题;确定每一个样本文本在对应分析主题上的分析结果标签;该分析结果标签位于对应分析主题的分析结果标签范围内;将每一个样本文本及对应分析主题分别作为输入,分析结果标签作为输出,对XLM

【技术实现步骤摘要】
文本主题分析方法、装置、电子设备及存储介质


[0001]本专利技术实施例涉及自然语言处理
,特别涉及一种文本主题分析方法、装置、电子设备及存储介质。

技术介绍

[0002]随着移动互联网与信息技术的飞速发展,数据量也在飞速递增。海量数据亟需进行处理和分析,尤其是文本类型的数据,其中包含有巨大信息量,政府、企业与个人对于智能化文本主题分析的需求日益增长。因此自然语言处理技术得以进一步发展。
[0003]现有技术中,在自然语言处理研究领域中应用较广泛的语言模型包括:基于循环神经网络(Recurrent neural network,RNN)的高级词向量(Elmo)和基于Transformer的GPT(Generative Pre

Training)模型和语言表征模型(Bidirectional Encoder Representation from Transformers,BERT)。虽然这些语言模型作为文本挖掘方法,能够有效提取文本特征,发现文本数据中潜在语义主题,但是,仅能够对输入的文本内容进行主题确认,无法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本主题分析方法,其特征在于,包括:确定所需实现的若干个分析主题以及每一个分析主题对应的分析结果标签范围;所述分析结果标签范围包括多个分析结果标签;获取包含多个样本文本的训练样本集;每一个样本文本可对应至少一个分析主题;确定每一个样本文本在对应分析主题上的分析结果标签;该分析结果标签位于对应分析主题的分析结果标签范围内;将所述训练样本集中的每一个样本文本及对应分析主题分别作为输入,将与输入的样本文本在输入的分析主题上的分析结果标签作为输出,对预先构建好的XLM

RoBERTa网络进行训练,得到训练完成的XLM

RoBERTa模型;将待评估文本和目标分析主题输入至所述XLM

RoBERTa模型中,得到所述XLM

RoBERTa模型输出的目标分析结果标签。2.根据权利要求1所述的方法,其特征在于,所述训练样本集中的样本文本从如下至少一个数据集中获得:BookCorpus数据集、维基百科英文数据集、CC

NEWS数据集、openwebtext数据集和stories数据集。3.根据权利要求1或2所述的方法,其特征在于,所述样本文本中语料所使用语种的数量为至少一个。4.根据权利要求1所述的方法,其特征在于,所述对预先构建好的XLM

RoBERTa网络进行训练,包括:利用所述XLM

RoBERTa网络对输入的样本文本进行文本清洗,将文本清洗后的样本文本进行分词,并根据分词结果将分词后的样本文本编码成张量;并利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习,以对所述XLM

RoBERTa网络中的参数进行调整。5.根据权利要求4所述的方法,其特征在于,在所述根据分词结果将分词后的样本文本编码成张量之前,还包括:为每一个词语标注词性标签,并根据每一个词语标注的词性标签将对文本特征无贡献的词语删除,以利用剩余词语执行所述编码成张量。6.根据权利要求...

【专利技术属性】
技术研发人员:张芊卢鹏肖新光
申请(专利权)人:安天科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1