一种文本相似度识别方法、装置及应用制造方法及图纸

技术编号：34490766 阅读：21 留言：0更新日期：2022-08-10 09:09

本发明专利技术提供了一种判断文本相似度的方法，基于预训练模型构建算法模型，采用主辅学习的方法进行学习；在所述算法模型的自注意计算过程中引入关键词掩码矩阵，关键词掩码矩阵和注意力权值矩阵求和后得到权值矩阵，提高关键词在句子中的注意力，得到文本的词汇权值，采用基于词汇权值的词匹配方法来计算两个句子的文本相似度，并依据短句与长句的比值进行排序，本方案不会因为句子描述长短的问题存在排序偏差，可以提高句子向量在相似度计算过程中的准确率。的准确率。的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本相似度识别方法、装置及应用

[0001]本申请涉及数据处理领域，特别是涉及一种文本相似度识别方法、装置及应用。

技术介绍

[0002]预训练模型是指在一个原始任务上预先训练一个初始模型，然后在目标任务上使用该模型，针对目标任务的特性，对该初始模型进行精调，从而达到提高目标任务的目的，在本质上，这是一种迁移学习的方法，在自己的目标任务上使用别人训练好的模型，对于文本语言来说，是有天然的标注特征存在的，原因就在于文本可以根据之前的输入词语进行预测，而且文本大多数是有很多词语，所以就可以构成很大的预训练数据，进而可以自监督(不是无监督，因为词语学习过程是依据之前词语的输出的，所以是自监督学习)的预训练。
[0003]在对文本数据处理的过程中，往往它的事件来源较多、数据量较大、内容表述杂乱，在分析处理的过程中，往往有挖掘出描述事件一致的案件文本数据的需求，通过文本处理算法挖掘出事件一致的文本并按照轻、重、缓、急进行分级治理，可以有效提高对大量文本数据快速处理的能力。
[0004]语义相似度算法是解决这一类问题的常用方法，然而这类算法更侧重解决文本之间语义上的理解能力，但是仅依靠语义分析的手段挖掘描述事件一致的案件并不能很好的解决该问题，例如：以城市治理领域为例，在城市治理中由于上报人描述事件的习惯不同，有的人喜欢言简意赅的描述一个案件，有的上报人则习惯详细的描述问题，长短句子之间计算相似度时语义分析很容易失败，这就给挖掘描述事件一致的案件任务带来极大的挑战，此外，描述较长的案件句子中存在着大量的信息冗...

【技术保护点】

【技术特征摘要】
1.一种文本相似度识别方法，其特征在于，包括以下步骤：获取至少两待识别文本，将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果，基于所述识别结果计算所述待识别文本的相似度；其中所述算法模型的构建过程如下：获取训练样本：获取由至少两相似文本组成的文本数据对作为主任务训练样本，并提取每一所述相似文本的关键词及关键词在所述相似文本的关键词位置作为辅助任务训练样本；将所述训练样本输入算法模型中进行训练，所述训练样本输入算法模型的roberta预训练模型中得到输出特征，所述输出特征作为句子向量，且所述输出特征全连接后经过全局池化处理并结合sigmoid函数得到词汇权值；所述输出特征全连接后通过分类处理后得到关键词位置，所述关键词位置、所述词汇权值和所述句子向量作为识别结果输出；其中所述roberta预训练模型的每一层特征提取层的自注意计算机制中增加关键词掩码矩阵，所述主任务训练样本输入到所述自注意力机制中输出注意力权值矩阵，所述关键词掩码矩阵由所述辅助任务训练样本转换得到，所述注意力权值矩阵和所述关键词掩码矩阵融合得到所述特征提取层的输出向量。2.根据权利要求1所述的文本相似度识别方法，其特征在于，在“获取训练样本”步骤中包括：对所述训练样本进行数据增强操作：在至少一相似文本的关键词位置后的位置内插入相同的关键词，得到增强的辅助任务训练样本；对至少一相似文本进行字向量编码后，保持句首标志符、结尾标志符以及填充标志符在句向量中顺序不变，随机打乱所述相似文本的其他字向量的排序位置，得到新的主任务训练样本。3.根据权利要求1所述的文本相似度识别方法，其特征在于，所述关键词掩码矩阵是根据关键词的位置信息给定的，在所述关键词掩码矩阵中关键词的位置信息参数值设置为1，其余位置信息参数值设置为0。4.根据权利要求1所述的文本相似度识别方法，其特征在于，“所述注意力权值矩阵和所述关键词掩码矩阵融合得到所述特征提取层的输出向量”包括步骤：主任务训练样本作为输入每一层特征提取层的输入向量，所述输入向量进行不同层的线性变化分别得到第一特征向量第二特征向量和第三特征向量；其中第一特征向量和第二特征向量的倒置矩阵点乘后被维度归一得到归一向量，所述归一向量和关键词掩码矩阵进行元素相加后并对相加后的特征值计算激活函数得到激活特征值，激活特征值和第三特征向量点乘得到该层特征输出层的输出向量。5.根据权利要求1所述的文本相似度...

【专利技术属性】
技术研发人员：毛云青，葛俊，王国梁，曹喆，
申请(专利权)人：城云科技中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人