文本中词的重要性程度确定方法、介质、装置和计算设备制造方法及图纸

技术编号：32456811 阅读：31 留言：0更新日期：2022-02-26 08:36

本公开的实施方式提供了一种文本中词的重要性程度确定方法、介质、装置和计算设备。利用具有神经网络算法结构的文本识别模型对目标文件的文本向量进行识别，将文本识别模型输出的用于表征识别结果的概率值，完成文本向量的正向传播。然后，将该概率值由神经网络的输出层向输入层进行逐层反向传播。出层向输入层进行逐层反向传播。出层向输入层进行逐层反向传播。

全部详细技术资料下载

【技术实现步骤摘要】
文本中词的重要性程度确定方法、介质、装置和计算设备

[0001]本公开的实施方式涉及人工智能
，更具体地，本公开的实施方式涉及一种文本中词的重要性程度确定方法、介质、装置和计算设备。

技术介绍

[0002]目前，一些文本处理任务中涉及到确定文本中重要性词的子任务。所谓的重要性词，可以是指对文本的含义贡献比较大的词。
[0003]例如，在对抗文本生成任务中，需要基于标准文本生成对抗文本，其中涉及到的一个子任务为，确定标准文本中的一个或多个重要性词。
[0004]基于此，需要一种确定文本中词的重要性程度的技术方案。

技术实现思路

[0005]在本上下文中，本公开的实施方式期望提供一种确定文本中词的重要性程度的方法、介质、装置和计算设备，以便得到更有效的对抗文本用于优化训练文本识别模型。
[0006]在本公开实施方式的第一方面中，提供了一种文本中词的重要性程度确定方法，其中，包括如下步骤：
[0007]获取目标文本的文本向量，以及用于表征文本识别模型对所述文本向量的识别结果的概...

【技术保护点】

【技术特征摘要】
1.一种文本中词的重要性程度确定方法，其中，包括如下步骤：获取目标文本的文本向量，以及用于表征文本识别模型对所述文本向量的识别结果的概率值，其中，所述文本向量是基于向量合并算法对所述目标文本中各个词的词向量的相同维度进行合并后得到的，所述文本识别模型的算法结构包括神经网络，所述神经网络包括输入层、若干中间层以及输出层；根据所述输出层的前一个中间层中每个神经元对所述输出层的贡献比例，将所述概率值按比例分配给该中间层中每个神经元，其分配结果为每个神经元对应的贡献值，其中，该中间层中每个神经元对所述输出层的贡献比例包括该中间层中每个神经元的参数值乘以该神经元与所述输出层之间的连接权重值；选取任一中间层，并根据该中间层的前一层中每个神经元对该中间层中每个神经元的贡献比例将该中间层中每个神经元对应的贡献值按比例分配给所述前一层中每个神经元，其中，所述前一层包括所述输入层或其他中间层，所述前一层中第一神经元对该中间层中第二神经元的贡献比例包括该第一神经元的参数值乘以该第一神经元与该第二神经元之间的连接权重值；根据所述向量合并算法的逆运算将每个维度的贡献值分配给各个词的词向量的该维度，其中，所述输入层中每个神经元对应的贡献值为该神经元对应的维度的贡献值；对每个词的词向量的各维度分别对应的贡献值进行求和计算，并根据计算结果得到该词的重要性程度表征值。2.如权利要求1所述方法，其中，根据计算结果得到该词的重要性程度表征值的步骤，还包括如下步骤：将计算结果的绝对值，作为该词的重要性程度表征值。3.如权利要求1或2所述方法，所述目标文本为用于训练文本识别模型的标准文本，所述方法还包括对抗文本生成步骤，所述对抗文本生成步骤包括：基于所述标准文本中每个词的重要性程度表征值，选择若干重要性词作为待替换词；根据所述标准文本中位于每个待替换词之前的词与之后的词，预测每个待替换词对应的若干备选词；根据至少部分待替换词对应的备选词，对所述标准文本进行词替换操作，得到若干备选文本；使用所述文本识别模型分别识别每个备选文本，将若干满足对抗条件的备选文本确定为对抗文本；其中，所述对抗条件为，所述文本识别模型对该备选文本的识别结果区别于对所述标准文本的识别结果。4.如权利要求3所述方法，其中，所述预测每个待替换词对应的若干备选词的步骤还包括：针对每个待替换词执行以下步骤：将所述标准文本中该待替换词的位置进行遮掩标记之后，将所述标准文本输入Bert模型，输出该遮掩标记对应的预测概率值集合；按照预测概率值由大到小的顺序，依次确定除该待替换词之外的若干词为备选词，其中，所述预测概率值集合包括多个词分别对应的预测概率值，其中每个词对应的预
测概率值用于预测该词出现在该遮掩标记对应的位置上的概率。5.如权利要求4所述方法，其中，所述文本识别模型用于对目标业务场景下的文本进行识别，其中，在将所述标准文本输入Bert模型之前，所述方法还包括：利用目标业务场景下的文本对Bert模型进行场景自适应训练。6.如权利要求3所述方法，其中，所述方...

【专利技术属性】
技术研发人员：勒一凡，罗晓华，杨杰，许翔，王强，
申请(专利权)人：杭州网易再顾科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人