文本相似度确定方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:37890925 阅读:11 留言:0更新日期:2023-06-18 11:54
本发明专利技术实施例涉及文本处理技术领域,公开了一种文本相似度确定方法,该方法包括:获取待识别的第一文本和第二文本;将所述第一文本及所述第二文本分别输入相似度融合计算模型进行计算,得到所述第一文本与所述第二文本的相似度结果;其中所述相似度融合计算模型包括文本相似度预测模型、词语相似度计算模块及文本编辑距离相似度计算模块;文本编辑距离相似度表示两个字符串之间由一个转换为另一个所需最少编辑次数。通过上述方式,本发明专利技术实施例实现了准确确定两个文本之间的相似度的效果。实现了准确确定两个文本之间的相似度的效果。实现了准确确定两个文本之间的相似度的效果。

【技术实现步骤摘要】
文本相似度确定方法、装置、计算机设备及存储介质


[0001]本专利技术实施例涉及文本处理
,具体涉及一种文本相似度确定方法、文本相似度确定装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]目前,随着信息技术的高速发展,文本相似性的在各行各业的应用越来越广泛。例如,在线考试系统的阅卷过程中,可根据文本相似性进行自动评分。
[0003]然而,本申请的专利技术人发现,现有一般基于传统规则及知识进行文本相似度计算,很大程度上依赖于人为的特征定义和规则制定,不同的语言专家定制规则不一且难以覆盖所有知识面,另一方面各层级间的相似度计算所采用向量仅能表征作为语言自身特征而不能蕴含上下文语义关联,整个句子的语义提取不够充分,这使得现有的文本相似度确定方法准确度较低。

技术实现思路

[0004]鉴于上述问题,本专利技术实施例提供了一种文本相似度确定方法、文本相似度确定装置、计算机设备及计算机可读存储介质,用于解决现有技术中存在的现有的文本相似度确定方法准确度较低的问题。
[0005]根据本专利技术实施例的一个方面,提供了一种文本相似度确定方法,所述方法包括:
[0006]获取待识别的第一文本和第二文本;
[0007]将所述第一文本及所述第二文本分别输入相似度融合计算模型进行计算,得到所述第一文本与所述第二文本的相似度结果;其中所述相似度融合计算模型包括文本相似度预测模型、词语相似度计算模块及文本编辑距离相似度计算模块;文本编辑距离相似度表示两个字符串之间由一个转换为另一个所需最少编辑次数。
[0008]在一种可选的方式中,所述将所述第一文本及所述第二文本分别输入相似度计算模型进行计算,得到相似度结果,进一步包括:
[0009]将所述第一文本及所述第二文本输入所述文本相似度预测模型,得到所述第一文本与所述第二文本的文本预测相似度;
[0010]将所述第一文本及所述第二文本输入所述词语相似度计算模块,得到所述第一文本与所述第二文本中各个词语之间的词语相似度;
[0011]将所述第一文本与所述第二文本输入所述文本编辑距离相似度计算模块,得到文本编辑距离相似度;
[0012]根据所述文本预测相似度、所述词语相似度以及所述文本编辑距离相似度,加权融合计算,得到所述相似度结果。
[0013]在一种可选的方式中,所述文本相似度预测模型包括输入层、编码层、匹配层、匹配信息提取层及输出层;所述将所述第一文本及所述第二文本输入所述文本相似度预测模型,得到所述第一文本与所述第二文本的文本预测相似度,包括:
[0014]将所述第一文本及所述第二文本分别通过所述输入层输入所述编码层进行编码,得到第一文本的第一上下文向量及第二文本的第二向上文向量;
[0015]通过所述匹配层对所述第一上下文向量及所述第二上下文向量进行计算,得到匹配矩阵;所述匹配矩阵表征所述第一文本中各个单词与所述第二文本中各个单词之间的相似度;
[0016]根据所述匹配矩阵通过所述匹配信息提取层,对所述第一文本与所述第二文本进行匹配信息提取,得到句子级匹配信息;
[0017]根据所述句子级匹配信息,预测得到所述第一文本与所述第二文本的文本预测相似度。
[0018]在一种可选的方式中,所述根据所述匹配矩阵通过所述匹配信息提取层,对所述第一文本与所述第二文本进行匹配信息提取,得到句子级匹配信息,包括:
[0019]以所述匹配矩阵中各单词之间的相似度作为局部特征,使用卷积神经网络对所述匹配矩阵进行全局特征提取,并池化后,作为短语间匹配矩阵;
[0020]对所述短语间匹配矩阵进行卷积与池化,得到句子级匹配信息。
[0021]在一种可选的方式中,所述将所述第一文本及所述第二文本分别输入相似度融合计算模型进行计算,得到所述第一文本与所述第二文本的相似度结果之前,所述方法还包括:
[0022]采用SOP任务对初始的文本相似度预测模型进行预训练,得到预训练后的文本相似度预测模型;所述SOP任务将相连的两个句子作为正样本,将相连的两个句子顺序转换后作为负样本;
[0023]将相似文本样本集输入预训练后的文本相似度预测模型进行训练,得到预测结果;
[0024]根据预测结果与期望结果,采用预设的损失函数,计算所述预训练后的文本相似度预测模型的损失,并根据所述损失调整所述预训练后的文本相似度预测模型的参数,并继续执行所述将相似文本样本集输入预训练后的文本相似度预测模型进行训练,得到预测结果,以及根据预测结果与期望结果,采用预设的损失函数,计算所述预训练后的文本相似度预测模型的损失,并根据所述损失调整所述预训练后的文本相似度预测模型的参数的步骤,直至所述损失达到预设损失阈值或达到预设迭代训练次数,得到训练好的所述文本相似度预测模型。
[0025]在一种可选的方式中,所述根据预测结果与期望结果,采用预设的损失函数,计算所述预训练后的文本相似度预测模型的损失,包括:
[0026]采用平滑损失函数作为所述预设的损失函数,计算所述预训练后的文本相似度预测模型的损失;所述平滑损失函数表征样本真实类别与预测类别差加上预测分布与先验分布的偏离程度。
[0027]在一种可选的方式中,所述第一文本为试题的答题文本,所述第二文本为所述试题的答案文本;所述将所述第一文本及所述第二文本分别输入相似度融合计算模型进行计算,得到所述第一文本与所述第二文本的相似度结果之后,所述方法还包括:
[0028]确定所述试题的试题分值;
[0029]根据所述相似度结果以及试题分值,计算得到所述答题文本对应的得分。
[0030]根据本专利技术实施例的另一方面,提供了一种文本相似度确定装置,包括:
[0031]获取模块,用于获取待识别的第一文本和第二文本;
[0032]计算模块,用于将所述第一文本及所述第二文本分别输入相似度融合计算模型进行计算,得到所述第一文本与所述第二文本的相似度结果;其中所述相似度融合计算模型包括文本相似度预测模型、词语相似度计算模块及文本编辑距离相似度计算模块;文本编辑距离相似度表示两个字符串之间由一个转换为另一个所需最少编辑次数。
[0033]根据本专利技术实施例的另一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0034]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行所述的文本相似度确定方法的操作。
[0035]根据本专利技术实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算机设备上运行时,使得计算机设备执行所述的文本相似度确定方法的操作。
[0036]本专利技术实施例通过获取待识别的第一文本和第二文本;将所述第一文本及所述第二文本分别输入相似度融合计算模型进行计算,得到所述第一文本与所述第二文本的相似度结果;其中所述相似度融合计算模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本相似度确定方法,其特征在于,所述方法包括:获取待识别的第一文本和第二文本;将所述第一文本及所述第二文本分别输入相似度融合计算模型进行计算,得到所述第一文本与所述第二文本的相似度结果;其中所述相似度融合计算模型包括文本相似度预测模型、词语相似度计算模块及文本编辑距离相似度计算模块;文本编辑距离相似度表示两个字符串之间由一个转换为另一个所需最少编辑次数。2.根据权利要求1所述的方法,其特征在于,所述将所述第一文本及所述第二文本分别输入相似度融合计算模型进行计算,得到所述第一文本与所述第二文本的相似度结果之前,所述方法还包括:采用SOP任务对初始的文本相似度预测模型进行预训练,得到预训练后的文本相似度预测模型;所述SOP任务将相连的两个句子作为正样本,将相连的两个句子顺序转换后作为负样本;将相似文本样本集输入预训练后的文本相似度预测模型进行训练,得到预测结果;根据预测结果与期望结果,采用预设的损失函数,计算所述预训练后的文本相似度预测模型的损失,并根据所述损失调整所述预训练后的文本相似度预测模型的参数,并继续执行所述将相似文本样本集输入预训练后的文本相似度预测模型进行训练,得到预测结果,以及根据预测结果与期望结果,采用预设的损失函数,计算所述预训练后的文本相似度预测模型的损失,并根据所述损失调整所述预训练后的文本相似度预测模型的参数的步骤,直至所述损失达到预设损失阈值或达到预设迭代训练次数,得到训练好的所述文本相似度预测模型。3.根据权利要求2所述的方法,其特征在于,所述根据预测结果与期望结果,采用预设的损失函数,计算所述预训练后的文本相似度预测模型的损失,包括:采用平滑损失函数作为所述预设的损失函数,计算所述预训练后的文本相似度预测模型的损失;所述平滑损失函数表征样本真实类别与预测类别差加上预测分布与先验分布的偏离程度。4.根据权利要求1所述的方法,其特征在于,所述将所述第一文本及所述第二文本分别输入相似度计算模型进行计算,得到相似度结果,进一步包括:将所述第一文本及所述第二文本输入所述文本相似度预测模型,得到所述第一文本与所述第二文本的文本预测相似度;将所述第一文本及所述第二文本输入所述词语相似度计算模块,得到所述第一文本与所述第二文本中各个词语之间的词语相似度;将所述第一文本与所述第二文本输入所述文本编辑距离相似度计算模块,得到文本编辑距离相似度;根据所述文本预测相似度、所述词语相似度以及所述文本编辑距离相似度,加权融合计算,得到所述相似度结果。5.根据权利要求4所述的方法,其特征在于,所述文本相似度预测模型包括输入层、编码层、匹配层、匹配信息提取层及输出层;...

【专利技术属性】
技术研发人员:任雄
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1