一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质制造方法及图纸

技术编号:29585994 阅读:16 留言:0更新日期:2021-08-06 19:45
本发明专利技术公开了一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质,其涉及计算机信息处理技术领域,所述方法包括:S1样本准备;S2模型训练;S3模型预测;在S2模型训练阶段,首先使用孪生网络结构分批训练上述样本集;然后分别计算锚样本与正样本、负样本之间的距离:利用electra模型计算样本的3)使用circle loss损失函数计算损失值,接着利用electra模型计算每个样本的特征表示,将circle loss损失函数与electra模型相结合,并使其应用到问答系统中,可得到文本相似度匹配速度与精度均较高的问题收集方法。

【技术实现步骤摘要】
一种基于circleloss的文本相似度匹配方法、装置、计算机设备和储存介质
本专利技术涉及计算机信息处理
,特别涉及一种基于circleloss的文本相似度匹配方法、装置、计算机设备和储存介质。
技术介绍
近年来,随着人工智能相关学科,特别是计算语言学的发展,各种各样的问答系统应运而生,它允许用户以自然语言的方式提问,通过理解与检索等过程将简短、准确的答案返回给用户。文本匹配是检索过程的最要一环。文本匹配主要由传统的基于词的字面匹配和基于深度学习的向量匹配。传统的BM25/Jaccard/CosineSimilarity等基于词匹配的模型都具有表示方法简洁、运算方便的特点,解决了词汇层面的匹配问题。但是基于词匹配的模型也有一定的局限,不能解决一词多义、同义词关联以及语序问题。基于深度学习的的文本匹配方法主要分为两类,一类是Representation-based模型,这类方法先分别学习出query和question的句向量表示,然后用两个向量做余弦相似度计算或者连接多层感知机(MLP)得到最后的匹配分,重点是学习query和question对应的句向量表示;另外一类是Interaction-based模型,这类先构建匹配矩阵(MatchingMatrix),然后利用匹配矩阵学习一个匹配函数,最后连接多层感知机输出匹配分。第二类方法在实际应用中会有很大的延时。Representation-based模型最为有代表性的是基于孪生网络(SiameseNetwork)的文本匹配。但孪生网络在实际应用中对于训练语料中未出现的句子匹配效果较差。为了提高文本匹配的泛化能力,引入了TripletLoss用以提高了文本匹配的泛化能力。在TripletLoss中,训练期间有三个输入,分别是锚样本(anchorsample),正样本(positivesample)和负样本(negtivesample)。锚是参考输入,正样本是锚样本的相似样本,负样本与锚样本不相似。TripletLoss的思想是:最大化锚样本和负样本之间的距离,同时拉近或最小化锚样本和正样本之间的距离。但当正样本或负样本与锚样本具有相同的距离时,或者正样本只是相比负样本稍微接近锚样本时,正样本到锚样本的距离与负样本到锚样本的距离差(margin)为零,也就是损失是零,此时就不会进行校正,尽管它仍然应该把正样本拉的更近,把负样本推得更远。但在训练过程中存在两对正样本和负样本之间有相同margin(正样本到锚样本的距离与负样本到锚样本的距离差),但其中一对离anchor更近另一对离点更远,如图6所示,在TripletLoss训练过程中两对样本会得到相对的梯度,两对样本具有相同的最优性,利用TripletLoss无法准确且快速的完成文本匹配。
技术实现思路
为了解决上述技术问题,本专利技术的目的在于提供一种基于circleloss的文本相似度匹配方法,解决了利用TripletLoss模型针对两对具有相同margin的样本时无法准确且快速完成文本匹配的问题,实用性较高。为了实现上述目的,本专利技术所采用的技术方案为:一种基于circleloss的文本相似度匹配方法,包括如下步骤:S1样本准备:收集问题集、确定锚样本、正样本与负样本,并对锚样本、正样本与负样本进行排序;S2模型训练:构建并训练模型;S3模型预测:测试训练完成的模型;其中,S2模型训练具体为,使用孪生网络结构分批训练上述样本集;1)分别计算锚样本与正样本、负样本之间的距离;2)使用circleloss损失函数计算损失值;计算锚样本与正样本的距离和锚样本与负样本的距离,其过程具体为:1)使用无监督模型计算每个样本的特征表示,无监督模型选用为electra模型;2)通过卷积神经网络,对每个样本的特征表示进行学习,获取每个样本的特征向量(200维);3)利用公式1和公式2来分别计算锚样本与正样本、负样本之间的距离。公式1Distance=1–similarity公式2其中:A代表锚样本的语义向量;B代表正样本或负样本的语义向量;Distance代表锚样本与正样本的距离或锚样本与负样本的距离优选的,S1样本准备包括:1)收集问题集,使用分类模型分类问题集;2)在分类后的样本集中选择锚样本、正样本和负样本;3)将选择的样本分为三列,第一列为锚样本,第二列为正样本;第三列为负样本;在收集并分类问题集后,使用收集的问题集及外部医疗数据训练BM25模型,使用训练好的BM25模型选择锚样本、正样本与负样本。优选的,分类模型选择为基于bert的分类模型。优选的,在S3模型预测过程中,将所有问题集通过上述训练好的模型,获得问题的语义向量,使用faiss模型构建向量索引优选的,在模型预测过程中,将所有问题集通过上述训练好的模型,获得问题的语义向量,使用faiss构建向量索引。优选的,选择锚样本、正样本和负样本的过程为:1)使用BM25模型选择锚样本:从收集到的问题集中随机选择30%作为样本,使用BM25模型计算样本之间的相似度,过滤掉相似度大于0.6的样本,其余样本作为锚样本;2)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.8的样本为正样本;3)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.6、小于0.8的样本作为困难样本,小于0.5的样本作为容易样本,最后将困难样本和容易样本按照7:3的比例混合,作为负样本。优选的,困难样本均是相同领域的问题,容易样本中,相同领域与不同领域比例控制在7:3。优选的,一种基于circleloss的文本相似度匹配装置,包括:预处理模块,对用户输入的文本进行分词,根据预先的同义词库和缩写库分别进行同义词替换和缩写替换,替换后会得到多个句子;句子语义向量抽取模块,将每个句子通过electra模型得到的每个句子中所有的字向量进行求均值操作,将均值向量作为每句话的句子语义向量,最后对所有句子向量进行平均,获取多句话的平均语义向量;相似度计算模块,将上述获取的平均语义向量,与所有问题的语义向量进行相似度计算,最后选取相似度靠前的问题,返回给用户。优选的,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。优选的,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。与现有技术相比,本专利技术的优点在于:(1)利用circleloss模型来计算损失值,并将circleloss模型与electra模型相结合,解决了目前TripletLoss模型在问答系统的文本相似度匹配中存在的匹配速度和精度低的问题,十分具有应用前景;(2)利用训练好的BM25模型来选择锚样本、正样本与负样本,在样本的选择方式上进行改进,使用此样本训练出来的模型精准度更高;(3)在样本选择完成后,对样本进行排序,实现样本在后本文档来自技高网
...

【技术保护点】
1.一种基于circle loss的文本相似度匹配方法,其特征在于,包括如下步骤:/nS1样本准备:收集问题集,确定锚样本、正样本与负样本,并对锚样本、正样本与负样本进行排序;/nS2模型训练:构建并训练模型;/nS3模型预测:测试训练完成的模型;/n其中,S2模型训练具体为,使用孪生网络结构分批训练上述样本集:1)分别计算锚样本与正样本、负样本之间的距离;2)使用circle loss损失函数计算损失值;/n计算锚样本与正样本的距离和锚样本与负样本的距离,其过程具体为:1)使用无监督模型计算每个样本的特征表示,无监督模型选用为electra模型;2)通过卷积神经网络,对每个样本的特征表示进行学习,获取每个样本的特征向量(200维);3)利用公式1和公式2来分别计算锚样本与正样本、负样本之间的距离。/n

【技术特征摘要】
1.一种基于circleloss的文本相似度匹配方法,其特征在于,包括如下步骤:
S1样本准备:收集问题集,确定锚样本、正样本与负样本,并对锚样本、正样本与负样本进行排序;
S2模型训练:构建并训练模型;
S3模型预测:测试训练完成的模型;
其中,S2模型训练具体为,使用孪生网络结构分批训练上述样本集:1)分别计算锚样本与正样本、负样本之间的距离;2)使用circleloss损失函数计算损失值;
计算锚样本与正样本的距离和锚样本与负样本的距离,其过程具体为:1)使用无监督模型计算每个样本的特征表示,无监督模型选用为electra模型;2)通过卷积神经网络,对每个样本的特征表示进行学习,获取每个样本的特征向量(200维);3)利用公式1和公式2来分别计算锚样本与正样本、负样本之间的距离。



Distance=1–similarity
公式2
其中:A代表锚样本的语义向量;B代表正样本或负样本的语义向量;Distance代表锚样本与正样本的距离或锚样本与负样本的距离。


2.根据权利要求1所述的基于circleloss的文本相似度匹配方法,其特征在于,S1样本准备包括:1)收集问题集,使用分类模型分类问题集;2)在分类后的样本集中选择锚样本、正样本和负样本;3)将选择的样本分为三列,第一列为锚样本,第二列为正样本;第三列为负样本;在收集并分类问题集后,使用收集的问题集及外部医疗数据训练BM25模型,使用训练好的BM25模型选择锚样本、正样本与负样本。


3.根据权利要求2所述的基于circleloss的文本相似度匹配方法,其特征在于,分类模型选择为基于bert的分类模型。


4.根据权利要求1所述的基于circleloss的文本相似度匹配方法,其特征在于,在S3模型预测过程中,将所有问题集通过上述训练好的模型,获得问题的语义向量,使用...

【专利技术属性】
技术研发人员:刘伟杨红飞
申请(专利权)人:杭州火石数智科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1