一种面向短文本的匹配方法及系统技术方案

技术编号：38646485 阅读：15 留言：0更新日期：2023-09-02 22:37

本发明专利技术公开了一种面向短文本的匹配方法及系统，包括从语料库中获取一对文本，文本包括多个句子，将每个句子复制一遍构建训练集；训练集对BERT模型进行训练，得到最终BERT模型，训练包括两个句子之间的相似度训练和每个句子向量及其句子中每个单词嵌入向量余弦相似度及单词在句子中的权重训练；将单词嵌入向量输入Transformer的Encoding，获得单词位置特征向量，融合单词位置特征向量和句子向量获得最终句向量；利用分类网络对连接得到的句向量进行分类，得到输入文本对的匹配值；本发明专利技术基于正例反例训练改善训练模型，使得相似语句通过训练模型所输出的向量能获得更高的余弦相似度，这样能更准确合理、精度更高的来匹配最相似的文本。最相似的文本。最相似的文本。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向短文本的匹配方法及系统

[0001]本专利技术涉及文本匹配
，尤其涉及一种面向短文本的匹配方法及系统。

技术介绍

[0002]基于句向量表征的文本匹配是自然语言处理中一个重要的基础问题，可以应用于大量的NLP任务中，如信息检索、问答系统、复述问题、对话系统、机器翻译等，这些NLP任务在很大程度上可以抽象为文本匹配问题，例如网页搜索可抽象为网页同用户搜索词条的一个相关性匹配问题，自动问答可抽象为候选答案与问题的满足度匹配问题，文本去重可以抽象为文本与文本的相似度匹配问题。
[0003]句向量表征技术一直都是NLP领域的热门话题，通过句向量表征技术获取句向量之后可以通过计算句向量之间的余弦相似度来一定程度的计算或者表征句子的相似度。而优良的句向量表征技术可以通过计算句子的相似度来匹配语料库中最相似的语句。在BERT前时代，一般都采用word2vec训练出的word
‑
embedding结合pooling策略进行句向量表征，或者在有训练数据情况下，采用TextCNN/BiLSTM结合Siamese network策略进行句向量表征。在BERT时代，人们借助预训练语言模型的固有优势，一般采用BERT模型的[CLS]向量作为句向量表征。
[0004]传统的基于词汇重合度的匹配算法不能很好地解决实际问题，而实际上是因为它有很大的局限性，原因包括：1.词义局限：“的士”和“出租车”虽然字面上不相似，但实际为同一种交通工具；“苹果”在不同的语境下表示不同的东西，或为水果或为公司；2.结

【技术保护点】

【技术特征摘要】
1.一种面向短文本的匹配方法，其特征在于，包括：从语料库中获取一对文本，所述文本包括多个句子，将每个所述句子复制一遍后用于构建训练集；所述训练集对BERT模型进行训练，得到最终BERT模型，其中，所述训练包括两个所述句子之间的相似度训练和每个所述句子向量及其所述句子中每个单词嵌入向量的点积或余弦相似度以及所述单词在所述句子中的权重训练；将所述单词嵌入向量输入Transformer的Encoding，获得所述单词位置特征向量，融合所述单词位置特征向量和所述句子向量获得最终句向量；利用分类网络对连接得到的所述最终句向量进行分类，得到输入文本对的匹配值。2.根据权利要求1所述的面向短文本的匹配方法，其特征在于，两个所述句子之间的相似度训练包括：相同所述句子输入所述BERT模型不同的dropout层所得到的两个输出为正例；不相同的所述句子输入所述BERT模型不同的dropout层所得到的两个输出为反例；分别计算所述正例和所述反例的相似度，并以增加所述正例相似度和减小所述反例相似度为目标，调整所述BERT模型参数。3.根据权利要求2所述的面向短文本的匹配方法，其特征在于，增加所述正例相似度和减小所述反例相似度为目标，调整所述BERT模型参数的公式为：式中：对数函数中的分子为正例相似度；分母为反例相似度。4.根据权利要求3所述的面向短文本的匹配方法，其特征在于，每个所述句子向量及其所述句子中每个单词嵌入向量的点积或余弦相似度以及所述单词在所述句子中的权重训练包括：所述句子输入所述BERT模型获得所述句子向量及其所述句子中每个单词嵌入向量，并计算两者之间的点积或余弦相似度；通过关键字提取每个单词的权重；将所述点积或余弦相似度和所述单词的权重通过softmax操作转换为概率分布后计算它们的KL散度；以减小所述KL散度为目标，调整所述BERT模型参数。5.根据权利要求4所述的面向短文本的匹配方法，其特征在于，KL散度公式为：式中：w
key
是单词的权重向量；w
cls
是句子的权重向量。6.一种面向短文本的匹配系统，其特征在于，...

【专利技术属性】
技术研发人员：蔡华，陈伟宏，
申请(专利权)人：华院计算技术上海股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人