【技术实现步骤摘要】
一种基于残差融合和堆叠集成的文本相似分析方法及系统
[0001]本专利技术属于文本相似分析领域,更具体地,涉及一种基于残差融合和堆叠集成的文本相似分析方法及系统。
技术介绍
[0002]文本相似分析,也称作“语义相似匹配”,是自然语言处理领域最基础且最核心的任务之一。搜索引擎、问答系统、论文查重等实际应用的核心都是基于各自的语料库实现文本相似分析。文本相似分析的实质是基于向量化的文本来判断文本所属的相似类别,或计算文本特征向量间的空间距离。因此,文本相似分析分为文本相似性判断和文本相似度计算。其中,文本相似性判断用于定性分析两个文本是否语义相似,属于分类任务。文本相似度计算是量化计算两个文本之间的语义相似程度,属于回归任务,是对文本相似性判断模型无法提供的两个文本之间的语义相关程度做量化计算。文本相似度计算模型基于人工或程序自动设置的相似度阈值,也能实现文本相似性判断。但文本相似度阈值的自定义过程复杂繁琐且受主观因素影响,因此文本相似性判断任务的主流实现方法仍是文本相似性判断模型。
[0003]目前,文本相似分析基于 ...
【技术保护点】
【技术特征摘要】
1.一种基于残差融合和堆叠集成的文本相似分析方法,其特征在于,包括:将待分析的文本输入目标文本相似性判断模型中进行相似性判断,得到判断结果;所述目标文本相似性判断模型由表示型的SBERT模型和交互型的ABCNN模型融合得到;若所述待分析的文本判断为相似文本,则将所述待分析的文本输入目标文本相似度计算模型中进行相似度计算,得到目标文本相似度值;所述目标文本相似度计算模型由多个不同的交互型预训练模型并列异质集成得到。2.如权利要求1所述的文本相似分析方法,其特征在于,所述目标文本相似性判断模型由表示型的SBERT模型和交互型的ABCNN模型融合得到,包括:采用残差网络的恒等映射方法融合表示型的SBERT模型和交互型的ABCNN模型,得到初始文本相似性判断模型;基于迁移学习方法对所述初始文本相似性判断模型进行迭代训练,得到目标文本相似性判断模型。3.如权利要求2所述的文本相似分析方法,其特征在于,所述采用残差网络的恒等映射方法融合表示型的SBERT模型和交互型的ABCNN模型,得到文本相似性判断模型,包括:构建文本相似性判断模型,包括输入层、嵌入层、特征提取层、特征交互层、融合层和输出层;所述输入层对训练文本进行预处理,并基于是非类型对所述训练文本进行人工标注;所述嵌入层将标注后的训练文本进行文本向量化,并经过Mengzi分词器产生训练文本的向量特征;所述特征提取层采用表示型的SBERT模型,并将所述SBERT模型中的BERT预训练模型替换成了轻量级的Mengzi预训练模型;所述向量特征作为标准输入提供给所述Mengzi预训练模型,得到固定维度的稠密特征向量;所述特征交互层采用交互型的ABCNN模型,所述特征交互层根据注意力机制将所述SBERT模型提取的特征进行充分交互,提取深层次的第二语义特征向量o1和o2;所述融合层基于向量拼接方法将所述特征提取层输入的第一语义特征向量u1和u2,以及所述特征交互层输入的第二语义特征向量o1和o2在特征维度层面进行拼接,得到语义特征融合后的向量;所述输出层包括依次连接的全连接层、归一化层、激活函数、全连接层和softmax函数,根据语义特征融合后的向量得到文本相似性判断结果。4.如权利要求3所述的文本相似分析方法,其特征在于,所述向量特征作为标准输入提供给所述Mengzi预训练模型,得到固定维度的稠密特征向量,包括:所述向量特征作为标准输入提供给所述Mengzi预训练模型后,通过公式(1)和(2)计算得到具有[CLS]标识的第一语义特征向量u1和u2,以及具体每个词的特征拼接起来形成的其他语义向量v1和v2;公式如下:u1=last_hidden_state[:,0]
ꢀꢀꢀꢀꢀꢀ
(1)v1=last_hidden_state[:,1:
‑
1]
ꢀꢀꢀꢀꢀꢀꢀ
(2)将其他语义向量v1和v2输出至所述特征交互层进行隐含语义提取,将所述第一语义特征向量u1和u2输出至所述融合层。5.如权利要求2所述的文本相似分析方法,其特征在于,所述基于迁移学习方法对所述
初始文本相似性判断模型进行迭代训练,得到目标文本相似性判断模型,包括:基于“是非类型”的人工标注训练集实现源域模型的迭代训练,并以有序字典state_dict的形式将训练好的模型存储在本地;遍历源域模型和目标域模型的网络模型参数,寻找并记录二者的共有参数;若源域模型和目标域模型存在共有参数,则使用源域模型存储在本地的参数值初始化目标域模型中相同的参数;目标域模型参数初始化完成后,采用CoSENT损失函数对Mengzi预训练模型进行训练优化;其中,所述CoSENT损失函数表示为:所述文本相似性判断进行迭代训练的过程中始终满足约束条件,即正样本u
i
和u
j
间的相似度始终大于负样本u
k
和u
l
间的相似度;所述约束条件如公式(4)所示:cos(u
i
,u
j
)>cos(u
k
,u
l
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)基于文本编辑的数据增强方法对训练数据集中的稀少样本进行快速倍增,所述数据增强方法包括:同义词随机插入、同义词随机替换、任意词随机交换...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。