文本数据的分析方法、模型训练方法、装置及计算机设备制造方法及图纸

技术编号：33207813 阅读：39 留言：0更新日期：2022-04-24 00:57

本申请公开了一种文本数据的分析方法、模型训练方法、装置及计算机设备，该分析方法获取待处理的文本数据和文本数据对应的第一情感标签；文本数据中包括多个单词；将文本数据和第一情感标签输入至文本分析模型，通过文本分析模型提取文本数据中的情感特征语句，得到第一输出概率和第二输出概率；第一输出概率用于表征文本数据中的各个单词为情感特征语句的起始单词的预测概率，第二输出概率用于表征文本数据中的各个单词为情感特征语句的终止单词的预测概率；根据第一输出概率和第二输出概率，从文本数据中确定情感特征语句。该分析方法能够从文本数据中提取出情感特征语句，且提取效率和准确度较高。本申请可广泛应用于人工智能技术领域内。工智能技术领域内。工智能技术领域内。

全部详细技术资料下载

【技术实现步骤摘要】
文本数据的分析方法、模型训练方法、装置及计算机设备

[0001]本申请涉及人工智能
，尤其是一种文本数据的分析方法、模型训练方法、装置及计算机设备。

技术介绍

[0002]近年来，随着人工智能技术的飞速发展，各种类型的机器学习模型在图像分类、人脸识别、自动驾驶等领域均取得了较为良好的应用效果。
[0003]其中，在文本分析的应用场景下，机器学习模型可以基于给定的文本数据，分析出其中蕴含的情感倾向。然而，在实际的应用中，可能存在有已经了解到文本数据的情感倾向，需要进一步判断、提取和该情感倾向相关内容的需求。面临该任务时，当下的机器学习模型输出的预测结果往往过于简略或者准确性不足。
[0004]综上，相关技术存在的问题亟需得到解决。

技术实现思路

[0005]本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。
[0006]为此，本申请实施例的一个目的在于提供一种文本数据的分析方法，该方法能够从文本数据中提取出情感特征语句，且具有较高的提取效率和准确度。
[000...

【技术保护点】

【技术特征摘要】
1.一种文本数据的分析方法，其特征在于，包括：获取待处理的文本数据和所述文本数据对应的第一情感标签；所述文本数据中包括多个单词；将所述文本数据和所述第一情感标签输入至预设的文本分析模型，通过所述文本分析模型提取所述文本数据中的情感特征语句，得到第一输出概率和第二输出概率；其中，所述第一输出概率用于表征所述文本数据中的各个单词为所述情感特征语句的起始单词的预测概率，所述第二输出概率用于表征所述文本数据中的各个单词为所述情感特征语句的终止单词的预测概率；根据所述第一输出概率和所述第二输出概率，从所述文本数据中确定所述情感特征语句。2.根据权利要求1所述的文本数据的分析方法，其特征在于，所述根据所述第一输出概率和所述第二输出概率，从所述文本数据中确定所述情感特征语句，包括：将所述第一输出概率最高值对应的单词确定为情感特征语句的目标起始单词，将所述第二输出概率最高值对应的单词确定为情感特征语句的目标终止单词；从所述文本数据中提取所述目标起始单词和所述目标终止单词之间的文本内容，得到所述情感特征语句。3.一种文本分析模型的训练方法，其特征在于，包括：获取多个文本样本和所述文本样本对应的第二情感标签、情感特征语句标签；所述文本样本中包括多个单词；将所述文本样本和所述第二情感标签输入至文本分析模型，通过所述文本分析模型提取所述文本样本中的情感特征语句，得到第三输出概率和第四输出概率；其中，所述第三输出概率用于表征所述文本样本中的各个单词为所述情感特征语句的起始单词的预测概率，所述第四输出概率用于表征所述文本样本中的各个单词为所述情感特征语句的终止单词的预测概率；根据所述第三输出概率、所述第四输出概率和所述情感特征语句标签，确定训练的损失值；根据所述损失值对所述文本分析模型进行训练，得到训练好的文本分析模型。4.根据权利要求3所述的文本分析模型的训练方法，其特征在于：所述将所述文本样本和所述第二情感标签输入至文本分析模型，通过所述文本分析模型提取所述文本数据中的情感特征语句，包括：对所述文本分析模型的神经网络单元进行多次的随机丢弃，得到多个不同的文本分析子模型；各个所述文本分析子模型具有共享的权重参数；将所述文本样本和所述第二情感标签输入到各个所述文本分析子模型中，提取所述文本数据中的情感特征语句；所述确定训练的损失值，包括：确定各个所述文本分析子模型对应的子损失值；计算各个所述子损失值的均值，得到训练的损失值。5.根据权利要求3所述的文本分析模型的训练方法，其特征在于，所述情感特征语句标签通过以下步骤得到：
根据所述文本样本中的情感特征语句的起始单词的位置，确定第一标签概率；所述第一标签概率用于表征所述文本样本中的各个单词为所述情感特征语句的起始单词的标签概率，各个单词对应的所述第一标签概率和所述单词与所述起始单词之间的距离负相关；根据所述文本样本中的情感特征语句的终止单词的位置，确定第二标签概率；所述第二标签概率用于表征所述文本样本中的各...

【专利技术属性】
技术研发人员：姜鹏，高鹏，谯轶轩，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人