一种文本相似度识别方法、装置及应用制造方法及图纸

技术编号:34490766 阅读:21 留言:0更新日期:2022-08-10 09:09
本发明专利技术提供了一种判断文本相似度的方法,基于预训练模型构建算法模型,采用主辅学习的方法进行学习;在所述算法模型的自注意计算过程中引入关键词掩码矩阵,关键词掩码矩阵和注意力权值矩阵求和后得到权值矩阵,提高关键词在句子中的注意力,得到文本的词汇权值,采用基于词汇权值的词匹配方法来计算两个句子的文本相似度,并依据短句与长句的比值进行排序,本方案不会因为句子描述长短的问题存在排序偏差,可以提高句子向量在相似度计算过程中的准确率。的准确率。的准确率。

【技术实现步骤摘要】
一种文本相似度识别方法、装置及应用


[0001]本申请涉及数据处理领域,特别是涉及一种文本相似度识别方法、装置及应用。

技术介绍

[0002]预训练模型是指在一个原始任务上预先训练一个初始模型,然后在目标任务上使用该模型,针对目标任务的特性,对该初始模型进行精调,从而达到提高目标任务的目的,在本质上,这是一种迁移学习的方法,在自己的目标任务上使用别人训练好的模型,对于文本语言来说,是有天然的标注特征存在的,原因就在于文本可以根据之前的输入词语进行预测,而且文本大多数是有很多词语,所以就可以构成很大的预训练数据,进而可以自监督(不是无监督,因为词语学习过程是依据之前词语的输出的,所以是自监督学习)的预训练。
[0003]在对文本数据处理的过程中,往往它的事件来源较多、数据量较大、内容表述杂乱,在分析处理的过程中,往往有挖掘出描述事件一致的案件文本数据的需求,通过文本处理算法挖掘出事件一致的文本并按照轻、重、缓、急进行分级治理,可以有效提高对大量文本数据快速处理的能力。
[0004]语义相似度算法是解决这一类问题的常用方法,然而这类算法更侧重解决文本之间语义上的理解能力,但是仅依靠语义分析的手段挖掘描述事件一致的案件并不能很好的解决该问题,例如:以城市治理领域为例,在城市治理中由于上报人描述事件的习惯不同,有的人喜欢言简意赅的描述一个案件,有的上报人则习惯详细的描述问题,长短句子之间计算相似度时语义分析很容易失败,这就给挖掘描述事件一致的案件任务带来极大的挑战,此外,描述较长的案件句子中存在着大量的信息冗余,这种冗余信息会影响模型对于句子主要内容的分析,这也是影响算法准确率的关键问题。

技术实现思路

[0005]本申请实施例提供了一种文本相似度识别方法,其特征在于获取至少两待识别文本,将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果,基于所述识别结果计算所述待识别文本的相似度。
[0006]第一方面,本申请实施例提供了一种文本相似度识别方法,所述方法包括:获取至少两待识别文本,将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果,基于所述识别结果判断所述待识别文本的相似度;
[0007]其中所述算法模型的构建过程如下:
[0008]获取训练样本:获取由至少两相似文本组成的文本数据对作为主任务训练样本,并提取每一所述相似文本的关键词及关键词在所述相似句子的关键词位置作为辅助任务训练样本;
[0009]将所述训练样本输入算法模型中进行训练,所述训练样本输入算法模型的roberta预训练模型中得到输出特征,所述输出特征作为句子向量,且所述输出特征全连接后经过全局池化处理并结合sigmoid函数得到词汇权值;所述输出特征全连接后通过分类
处理后得到关键词位置,所述关键词位置、所述词汇权值和所述句子向量作为识别结果输出;其中所述roberta预训练模型的每一层特征提取层的自注意计算机制中增加关键词掩码矩阵,所述主任务训练样本输入到所述自注意力机制中输出注意力权值矩阵,所述关键词掩码矩阵由所述辅助任务训练样本转换得到,所述注意力权值矩阵和所述关键词掩码矩阵融合得到权值矩阵。
[0010]第二方面,本申请实施例提供了一种文本相似度识别装置,包括:
[0011]获取模块:获取由至少两相似文本组成的文本数据对作为主任务训练样本,并提取每一所述相似文本的关键词及关键词在所述相似句子的关键词位置作为辅助任务训练样本;
[0012]计算模块:将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果,基于所述识别结果计算所述待识别文本的相似度。
[0013]第三方面,本申请实施例提供了一种基于文本相似度判断同事件的装置,包括:
[0014]获取模块:获取由至少两相似文本组成的文本数据对作为主任务训练样本,并提取每一所述相似文本的关键词及关键词在所述相似句子的关键词位置作为辅助任务训练样本;
[0015]计算模块:将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果,基于所述识别结果计算所述待识别文本的相似度。
[0016]判断模块:自所述待识别文本中选定基准文本,基于和所述基准文本的相似度自高至低排序其他待识别文本,所述待识别文本选自同一来源地址;或者选择和所述基准文本来自于同一来源地址的排序靠前的所述待识别文本作为同事件文本。
[0017]第四方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种基于文本相似度判断同事件的方法。
[0018]第五方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,以执行一种基于文本相似度判断同事件的方法。
[0019]本专利技术的主要贡献和创新点如下:
[0020]本专利技术提供了一种文本相似度识别方法、装置及应用基于文本相似度判断同事件的方法,其特征在于,采用主辅学习的方法,基于roberta预训练模型构建算法模型,采用主辅学习的方法:主学习任务是进行句子向量表达学习,辅助学习则是利用模型学习识别句子中关键词;在所述算法模型的自注意计算过程中引入关键词掩码矩阵,关键词掩码矩阵和注意力权值矩阵求和后得到权值矩阵,提高关键词在句子中的注意力,同时对训练过程中特征向量之间进行正则规范并预测文本中的关键词汇位置,且不同于以往在神经网络中通过增加各种计算的形式获取句子注意力的方式,该掩码矩阵方法操作简单,计算量小。
[0021]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0022]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申
请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0023]图1是根据本申请实施例的一种文本相似度识别方法的方法流程图;
[0024]图2是根据本申请实施例的搭建的一种文本相似度识别算法模型的模型结构图;
[0025]图3是根据本申请实施例的数据增强的打乱词序向量的示意图;
[0026]图4是根据本申请实施例的结合关键词掩码矩阵的自注意力计算机制的结构示意图;
[0027]图5是根据本申请实施例的编码器层和解码器层的连接关系;
[0028]图6是根据本申请实施例的一种基于文本相似度判断同事件的判断方法的流程示意图;
[0029]图7是根据本申请实施例的一种文本相似度识别装置的结构框图;
[0030]图8是根据本申请实施例的一种基于文本相似度判断同事件装置的结构框图;
[0031]图9是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
[0032]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本相似度识别方法,其特征在于,包括以下步骤:获取至少两待识别文本,将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果,基于所述识别结果计算所述待识别文本的相似度;其中所述算法模型的构建过程如下:获取训练样本:获取由至少两相似文本组成的文本数据对作为主任务训练样本,并提取每一所述相似文本的关键词及关键词在所述相似文本的关键词位置作为辅助任务训练样本;将所述训练样本输入算法模型中进行训练,所述训练样本输入算法模型的roberta预训练模型中得到输出特征,所述输出特征作为句子向量,且所述输出特征全连接后经过全局池化处理并结合sigmoid函数得到词汇权值;所述输出特征全连接后通过分类处理后得到关键词位置,所述关键词位置、所述词汇权值和所述句子向量作为识别结果输出;其中所述roberta预训练模型的每一层特征提取层的自注意计算机制中增加关键词掩码矩阵,所述主任务训练样本输入到所述自注意力机制中输出注意力权值矩阵,所述关键词掩码矩阵由所述辅助任务训练样本转换得到,所述注意力权值矩阵和所述关键词掩码矩阵融合得到所述特征提取层的输出向量。2.根据权利要求1所述的文本相似度识别方法,其特征在于,在“获取训练样本”步骤中包括:对所述训练样本进行数据增强操作:在至少一相似文本的关键词位置后的位置内插入相同的关键词,得到增强的辅助任务训练样本;对至少一相似文本进行字向量编码后,保持句首标志符、结尾标志符以及填充标志符在句向量中顺序不变,随机打乱所述相似文本的其他字向量的排序位置,得到新的主任务训练样本。3.根据权利要求1所述的文本相似度识别方法,其特征在于,所述关键词掩码矩阵是根据关键词的位置信息给定的,在所述关键词掩码矩阵中关键词的位置信息参数值设置为1,其余位置信息参数值设置为0。4.根据权利要求1所述的文本相似度识别方法,其特征在于,“所述注意力权值矩阵和所述关键词掩码矩阵融合得到所述特征提取层的输出向量”包括步骤:主任务训练样本作为输入每一层特征提取层的输入向量,所述输入向量进行不同层的线性变化分别得到第一特征向量第二特征向量和第三特征向量;其中第一特征向量和第二特征向量的倒置矩阵点乘后被维度归一得到归一向量,所述归一向量和关键词掩码矩阵进行元素相加后并对相加后的特征值计算激活函数得到激活特征值,激活特征值和第三特征向量点乘得到该层特征输出层的输出向量。5.根据权利要求1所述的文本相似度...

【专利技术属性】
技术研发人员:毛云青葛俊王国梁曹喆
申请(专利权)人:城云科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1