一种面向短文本的匹配方法及系统技术方案

技术编号:38646485 阅读:15 留言:0更新日期:2023-09-02 22:37
本发明专利技术公开了一种面向短文本的匹配方法及系统,包括从语料库中获取一对文本,文本包括多个句子,将每个句子复制一遍构建训练集;训练集对BERT模型进行训练,得到最终BERT模型,训练包括两个句子之间的相似度训练和每个句子向量及其句子中每个单词嵌入向量余弦相似度及单词在句子中的权重训练;将单词嵌入向量输入Transformer的Encoding,获得单词位置特征向量,融合单词位置特征向量和句子向量获得最终句向量;利用分类网络对连接得到的句向量进行分类,得到输入文本对的匹配值;本发明专利技术基于正例反例训练改善训练模型,使得相似语句通过训练模型所输出的向量能获得更高的余弦相似度,这样能更准确合理、精度更高的来匹配最相似的文本。最相似的文本。最相似的文本。

【技术实现步骤摘要】
一种面向短文本的匹配方法及系统


[0001]本专利技术涉及文本匹配
,尤其涉及一种面向短文本的匹配方法及系统。

技术介绍

[0002]基于句向量表征的文本匹配是自然语言处理中一个重要的基础问题,可以应用于大量的NLP任务中,如信息检索、问答系统、复述问题、对话系统、机器翻译等,这些NLP任务在很大程度上可以抽象为文本匹配问题,例如网页搜索可抽象为网页同用户搜索词条的一个相关性匹配问题,自动问答可抽象为候选答案与问题的满足度匹配问题,文本去重可以抽象为文本与文本的相似度匹配问题。
[0003]句向量表征技术一直都是NLP领域的热门话题,通过句向量表征技术获取句向量之后可以通过计算句向量之间的余弦相似度来一定程度的计算或者表征句子的相似度。而优良的句向量表征技术可以通过计算句子的相似度来匹配语料库中最相似的语句。在BERT前时代,一般都采用word2vec训练出的word

embedding结合pooling策略进行句向量表征,或者在有训练数据情况下,采用TextCNN/BiLSTM结合Siamese network策略进行句向量表征。在BERT时代,人们借助预训练语言模型的固有优势,一般采用BERT模型的[CLS]向量作为句向量表征。
[0004]传统的基于词汇重合度的匹配算法不能很好地解决实际问题,而实际上是因为它有很大的局限性,原因包括:1.词义局限:“的士”和“出租车”虽然字面上不相似,但实际为同一种交通工具;“苹果”在不同的语境下表示不同的东西,或为水果或为公司;2.结构局限:“机器学习”和“学习机器”虽然词汇完全重合,但表达的意思不同;3.知识局限:虽从词法和句法上看均没问题,但结合知识看是不对的。这表明,对于文本匹配任务,不能只停留在字面匹配层面,更需要语义层面的匹配。
[0005]而对于预训练模型下的句向量表征方法来说,BERT本身获取的[CLS]向量已经具备一定程序的语义信息,这是建立在BERT本身自带的多头注意力机制的基础上。然而对于文本相似度匹配任务来讲,token级的匹配并不总能正确表示文本间相似性,或者说[CLS]本身只蕴含了一定程度的语义信息,因此需要额外的训练任务来强化[CLS]的语义表示。
[0006]总的来说,现有技术面临的问题主要分为两方面:一方面是在对[CLS]的句向量表示添加额外的训练任务时可能需要大量的数据,且数据一般为有一定关系的句子以便于后续任务的匹配,这样大大增加了数据的成本,另一方面,[CLS]本身所蕴含的只是语句的部分信息,在某些时候不一定能完整的表述整个句子的语义信息。

技术实现思路

[0007]针对上述问题中存在的不足之处,本专利技术提供一种面向短文本的匹配方法及系统。
[0008]为实现上述目的,本专利技术提供一种面向短文本的匹配方法,包括:
[0009]从语料库中获取一对文本,所述文本包括多个句子,将每个所述句子复制一遍后
用于构建训练集;
[0010]所述训练集对BERT模型进行训练,得到最终BERT模型,其中,所述训练包括两个所述句子之间的相似度训练和每个所述句子向量及其所述句子中每个单词嵌入向量的点积或余弦相似度以及所述单词在所述句子中的权重训练;
[0011]将所述单词嵌入向量输入Transformer的Encoding,获得所述单词位置特征向量,融合所述单词位置特征向量和所述句子向量获得最终句向量;
[0012]利用分类网络对连接得到的所述最终句向量进行分类,得到输入文本对的匹配值。
[0013]优选的是,两个所述句子之间的相似度训练包括:
[0014]相同所述句子输入所述BERT模型不同的dropout层所得到的两个输出为正例;
[0015]不相同的所述句子输入所述BERT模型不同的dropout层所得到的两个输出为反例;
[0016]分别计算所述正例和所述反例的相似度,并以增加所述正例相似度和减小所述反例相似度为目标,调整所述BERT模型参数。
[0017]优选的是,增加所述正例相似度和减小所述反例相似度为目标,调整所述BERT模型参数的公式为:
[0018][0019]式中:对数函数中的分子为正例相似度;分母为反例相似度。
[0020]优选的是,每个所述句子向量及其所述句子中每个单词嵌入向量的点积或余弦相似度以及所述单词在所述句子中的权重训练包括:
[0021]所述句子输入所述BERT模型获得所述句子向量及其所述句子中每个单词嵌入向量,并计算两者之间的点积或余弦相似度;
[0022]通过关键字提取每个单词的权重;
[0023]将所述点积或余弦相似度和所述单词的权重通过softmax操作转换为概率分布后计算它们的KL散度;
[0024]以减小所述KL散度为目标,调整所述BERT模型参数。
[0025]优选的是,KL散度公式为:
[0026][0027]式中:w
key
是单词的权重向量;w
cls
是句子的权重向量。
[0028]本专利技术还包括一种面向短文本的匹配系统,包括:
[0029]获取模块,用于从语料库中获取一对文本,所述文本包括多个句子,将每个所述句子复制一遍后用于构建训练集;
[0030]训练模块,用于所述训练集对BERT模型进行训练,得到最终BERT模型,其中,所述训练包括两个所述句子之间的相似度训练和每个所述句子向量及其所述句子中每个单词嵌入向量的点积或余弦相似度以及所述单词在所述句子中的权重训练;
[0031]聚合模块,用于将所述单词嵌入向量输入Transformer的Encoding,获得所述单词位置特征向量,融合所述单词位置特征向量和所述句子向量获得最终句向量;
[0032]匹配模块,用于利用分类网络对连接得到的所述最终句向量进行分类,得到输入
文本对的匹配值。
[0033]优选的是,两个所述句子之间的相似度训练包括:
[0034]相同所述句子输入所述BERT模型不同的dropout层所得到的两个输出为正例;
[0035]不相同的所述句子输入所述BERT模型不同的dropout层所得到的两个输出为反例;
[0036]分别计算所述正例和所述反例的相似度,并以增加所述正例相似度和减小所述反例相似度为目标,调整所述BERT模型参数。
[0037]优选的是,增加所述正例相似度和减小所述反例相似度为目标,调整所述BERT模型参数的公式为:
[0038][0039]式中:对数函数中的分子为正例相似度;分母为反例相似度。
[0040]优选的是,每个所述句子向量及其所述句子中每个单词嵌入向量的点积或余弦相似度以及所述单词在所述句子中的权重训练包括:
[0041]所述句子输入所述BERT模型获得所述句子向量及其所述句子中每个单词嵌入向量,并计算两者之间的点积或余弦相似度;
[0042]通过关键字提取每个单词的权重;...

【技术保护点】

【技术特征摘要】
1.一种面向短文本的匹配方法,其特征在于,包括:从语料库中获取一对文本,所述文本包括多个句子,将每个所述句子复制一遍后用于构建训练集;所述训练集对BERT模型进行训练,得到最终BERT模型,其中,所述训练包括两个所述句子之间的相似度训练和每个所述句子向量及其所述句子中每个单词嵌入向量的点积或余弦相似度以及所述单词在所述句子中的权重训练;将所述单词嵌入向量输入Transformer的Encoding,获得所述单词位置特征向量,融合所述单词位置特征向量和所述句子向量获得最终句向量;利用分类网络对连接得到的所述最终句向量进行分类,得到输入文本对的匹配值。2.根据权利要求1所述的面向短文本的匹配方法,其特征在于,两个所述句子之间的相似度训练包括:相同所述句子输入所述BERT模型不同的dropout层所得到的两个输出为正例;不相同的所述句子输入所述BERT模型不同的dropout层所得到的两个输出为反例;分别计算所述正例和所述反例的相似度,并以增加所述正例相似度和减小所述反例相似度为目标,调整所述BERT模型参数。3.根据权利要求2所述的面向短文本的匹配方法,其特征在于,增加所述正例相似度和减小所述反例相似度为目标,调整所述BERT模型参数的公式为:式中:对数函数中的分子为正例相似度;分母为反例相似度。4.根据权利要求3所述的面向短文本的匹配方法,其特征在于,每个所述句子向量及其所述句子中每个单词嵌入向量的点积或余弦相似度以及所述单词在所述句子中的权重训练包括:所述句子输入所述BERT模型获得所述句子向量及其所述句子中每个单词嵌入向量,并计算两者之间的点积或余弦相似度;通过关键字提取每个单词的权重;将所述点积或余弦相似度和所述单词的权重通过softmax操作转换为概率分布后计算它们的KL散度;以减小所述KL散度为目标,调整所述BERT模型参数。5.根据权利要求4所述的面向短文本的匹配方法,其特征在于,KL散度公式为:式中:w
key
是单词的权重向量;w
cls
是句子的权重向量。6.一种面向短文本的匹配系统,其特征在于,...

【专利技术属性】
技术研发人员:蔡华陈伟宏
申请(专利权)人:华院计算技术上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1