文本数据的分析方法、模型训练方法、装置及计算机设备制造方法及图纸

技术编号:33207813 阅读:14 留言:0更新日期:2022-04-24 00:57
本申请公开了一种文本数据的分析方法、模型训练方法、装置及计算机设备,该分析方法获取待处理的文本数据和文本数据对应的第一情感标签;文本数据中包括多个单词;将文本数据和第一情感标签输入至文本分析模型,通过文本分析模型提取文本数据中的情感特征语句,得到第一输出概率和第二输出概率;第一输出概率用于表征文本数据中的各个单词为情感特征语句的起始单词的预测概率,第二输出概率用于表征文本数据中的各个单词为情感特征语句的终止单词的预测概率;根据第一输出概率和第二输出概率,从文本数据中确定情感特征语句。该分析方法能够从文本数据中提取出情感特征语句,且提取效率和准确度较高。本申请可广泛应用于人工智能技术领域内。工智能技术领域内。工智能技术领域内。

【技术实现步骤摘要】
文本数据的分析方法、模型训练方法、装置及计算机设备


[0001]本申请涉及人工智能
,尤其是一种文本数据的分析方法、模型训练方法、装置及计算机设备。

技术介绍

[0002]近年来,随着人工智能技术的飞速发展,各种类型的机器学习模型在图像分类、人脸识别、自动驾驶等领域均取得了较为良好的应用效果。
[0003]其中,在文本分析的应用场景下,机器学习模型可以基于给定的文本数据,分析出其中蕴含的情感倾向。然而,在实际的应用中,可能存在有已经了解到文本数据的情感倾向,需要进一步判断、提取和该情感倾向相关内容的需求。面临该任务时,当下的机器学习模型输出的预测结果往往过于简略或者准确性不足。
[0004]综上,相关技术存在的问题亟需得到解决。

技术实现思路

[0005]本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。
[0006]为此,本申请实施例的一个目的在于提供一种文本数据的分析方法,该方法能够从文本数据中提取出情感特征语句,且具有较高的提取效率和准确度。
[0007]为了达到上述技术目的,本申请实施例所采取的技术方案包括:
[0008]一方面,本申请实施例提供了一种文本数据的分析方法,包括:
[0009]获取待处理的文本数据和所述文本数据对应的第一情感标签;所述文本数据中包括多个单词;
[0010]将所述文本数据和所述第一情感标签输入至预设的文本分析模型,通过所述文本分析模型提取所述文本数据中的情感特征语句,得到第一输出概率和第二输出概率;其中,所述第一输出概率用于表征所述文本数据中的各个单词为所述情感特征语句的起始单词的预测概率,所述第二输出概率用于表征所述文本数据中的各个单词为所述情感特征语句的终止单词的预测概率;
[0011]根据所述第一输出概率和所述第二输出概率,从所述文本数据中确定所述情感特征语句。
[0012]另外,根据本申请上述实施例的一种文本数据的分析方法,还可以具有以下附加的技术特征:
[0013]进一步地,在本申请的一个实施例中,所述根据所述第一输出概率和所述第二输出概率,从所述文本数据中确定所述情感特征语句,包括:
[0014]将所述第一输出概率最高值对应的单词确定为情感特征语句的目标起始单词,将所述第二输出概率最高值对应的单词确定为情感特征语句的目标终止单词;
[0015]从所述文本数据中提取所述目标起始单词和所述目标终止单词之间的文本内容,得到所述情感特征语句。
[0016]另一方面,本申请实施例提供了一种文本分析模型的训练方法,包括:
[0017]获取多个文本样本和所述文本样本对应的第二情感标签、情感特征语句标签;所述文本样本中包括多个单词;
[0018]将所述文本样本和所述第二情感标签输入至文本分析模型,通过所述文本分析模型提取所述文本样本中的情感特征语句,得到第三输出概率和第四输出概率;其中,所述第三输出概率用于表征所述文本样本中的各个单词为所述情感特征语句的起始单词的预测概率,所述第四输出概率用于表征所述文本样本中的各个单词为所述情感特征语句的终止单词的预测概率;
[0019]根据所述第三输出概率、所述第四输出概率和所述情感特征语句标签,确定训练的损失值;
[0020]根据所述损失值对所述文本分析模型进行训练,得到训练好的文本分析模型。
[0021]另外,根据本申请上述实施例的一种文本分析模型的训练方法,还可以具有以下附加的技术特征:
[0022]进一步地,在本申请的一个实施例中,所述将所述文本样本和所述第二情感标签输入至文本分析模型,通过所述文本分析模型提取所述文本数据中的情感特征语句,包括:
[0023]对所述文本分析模型的神经网络单元进行多次的随机丢弃,得到多个不同的文本分析子模型;各个所述文本分析子模型具有共享的权重参数;
[0024]将所述文本样本和所述第二情感标签输入到各个所述文本分析子模型中,通过各个所述文本分析子模型提取所述文本数据中的情感特征语句;
[0025]所述确定训练的损失值,包括:
[0026]确定各个所述文本分析子模型对应的子损失值;
[0027]计算各个所述子损失值的均值,得到训练的损失值。
[0028]进一步地,在本申请的一个实施例中,所述情感特征语句标签通过以下步骤得到:
[0029]根据所述文本样本中的情感特征语句的起始单词的位置,确定第一标签概率;所述第一标签概率用于表征所述文本样本中的各个单词为所述情感特征语句的起始单词的标签概率,各个单词对应的所述第一标签概率和所述单词与所述起始单词之间的距离负相关;
[0030]根据所述文本样本中的情感特征语句的终止单词的位置,确定第二标签概率;所述第二标签概率用于表征所述文本样本中的各个单词为所述情感特征语句的终止单词的标签概率,各个单词对应的所述第二标签概率和所述单词与所述终止单词之间的距离负相关;
[0031]根据所述第一标签概率和所述第二标签概率构造所述情感特征语句标签。
[0032]进一步地,在本申请的一个实施例中,所述情感特征语句标签通过以下步骤得到:
[0033]分别将所述文本样本中的各个单词作为情感特征语句的候选起始单词,将所述文本样本的终止单词作为情感特征语句的候选终止单词,构造得到所述文本样本中的各个单词对应的第一候选情感特征语句;
[0034]根据各个所述第一候选情感特征语句和所述情感特征语句的单词交并比,确定各个所述第一候选情感特征语句对应的单词的第一标签概率;所述第一标签概率用于表征所述文本样本中的各个单词为所述情感特征语句的起始单词的标签概率;
[0035]将所述文本样本的起始单词作为情感特征语句的候选起始单词,分别将所述文本样本中的各个单词作为情感特征语句的候选终止单词,构造得到所述文本样本中的各个单词对应的第二候选情感特征语句;
[0036]根据各个所述第二候选情感特征语句和所述情感特征语句的单词交并比,确定各个所述第二候选情感特征语句对应的单词的第二标签概率;所述第二标签概率用于表征所述文本样本中的各个单词为所述情感特征语句的终止单词的标签概率;
[0037]根据所述第一标签概率和所述第二标签概率构造所述情感特征语句标签。
[0038]进一步地,在本申请的一个实施例中,所述根据所述第三输出概率、所述第四输出概率和所述情感特征语句标签,确定训练的损失值,包括:
[0039]确定所述第三输出概率和所述第一标签概率之间的第一散度值;
[0040]确定所述第四输出概率和所述第二标签概率之间的第二散度值;
[0041]根据所述第一散度值和所述第二散度值的和,确定训练的损失值。
[0042]另一方面,本申请实施例提供一种文本数据的分析装置,包括:
[0043]获取模块,用于获取待处理的文本数据和所述文本数据对应的第一情感标签;所述文本数据中包括多个单词;
[0044本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据的分析方法,其特征在于,包括:获取待处理的文本数据和所述文本数据对应的第一情感标签;所述文本数据中包括多个单词;将所述文本数据和所述第一情感标签输入至预设的文本分析模型,通过所述文本分析模型提取所述文本数据中的情感特征语句,得到第一输出概率和第二输出概率;其中,所述第一输出概率用于表征所述文本数据中的各个单词为所述情感特征语句的起始单词的预测概率,所述第二输出概率用于表征所述文本数据中的各个单词为所述情感特征语句的终止单词的预测概率;根据所述第一输出概率和所述第二输出概率,从所述文本数据中确定所述情感特征语句。2.根据权利要求1所述的文本数据的分析方法,其特征在于,所述根据所述第一输出概率和所述第二输出概率,从所述文本数据中确定所述情感特征语句,包括:将所述第一输出概率最高值对应的单词确定为情感特征语句的目标起始单词,将所述第二输出概率最高值对应的单词确定为情感特征语句的目标终止单词;从所述文本数据中提取所述目标起始单词和所述目标终止单词之间的文本内容,得到所述情感特征语句。3.一种文本分析模型的训练方法,其特征在于,包括:获取多个文本样本和所述文本样本对应的第二情感标签、情感特征语句标签;所述文本样本中包括多个单词;将所述文本样本和所述第二情感标签输入至文本分析模型,通过所述文本分析模型提取所述文本样本中的情感特征语句,得到第三输出概率和第四输出概率;其中,所述第三输出概率用于表征所述文本样本中的各个单词为所述情感特征语句的起始单词的预测概率,所述第四输出概率用于表征所述文本样本中的各个单词为所述情感特征语句的终止单词的预测概率;根据所述第三输出概率、所述第四输出概率和所述情感特征语句标签,确定训练的损失值;根据所述损失值对所述文本分析模型进行训练,得到训练好的文本分析模型。4.根据权利要求3所述的文本分析模型的训练方法,其特征在于:所述将所述文本样本和所述第二情感标签输入至文本分析模型,通过所述文本分析模型提取所述文本数据中的情感特征语句,包括:对所述文本分析模型的神经网络单元进行多次的随机丢弃,得到多个不同的文本分析子模型;各个所述文本分析子模型具有共享的权重参数;将所述文本样本和所述第二情感标签输入到各个所述文本分析子模型中,提取所述文本数据中的情感特征语句;所述确定训练的损失值,包括:确定各个所述文本分析子模型对应的子损失值;计算各个所述子损失值的均值,得到训练的损失值。5.根据权利要求3所述的文本分析模型的训练方法,其特征在于,所述情感特征语句标签通过以下步骤得到:
根据所述文本样本中的情感特征语句的起始单词的位置,确定第一标签概率;所述第一标签概率用于表征所述文本样本中的各个单词为所述情感特征语句的起始单词的标签概率,各个单词对应的所述第一标签概率和所述单词与所述起始单词之间的距离负相关;根据所述文本样本中的情感特征语句的终止单词的位置,确定第二标签概率;所述第二标签概率用于表征所述文本样本中的各...

【专利技术属性】
技术研发人员:姜鹏高鹏谯轶轩
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1