文本相似度确定方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：37890925 阅读：27 留言：0更新日期：2023-06-18 11:54

本发明专利技术实施例涉及文本处理技术领域，公开了一种文本相似度确定方法，该方法包括：获取待识别的第一文本和第二文本；将所述第一文本及所述第二文本分别输入相似度融合计算模型进行计算，得到所述第一文本与所述第二文本的相似度结果；其中所述相似度融合计算模型包括文本相似度预测模型、词语相似度计算模块及文本编辑距离相似度计算模块；文本编辑距离相似度表示两个字符串之间由一个转换为另一个所需最少编辑次数。通过上述方式，本发明专利技术实施例实现了准确确定两个文本之间的相似度的效果。实现了准确确定两个文本之间的相似度的效果。实现了准确确定两个文本之间的相似度的效果。

全部详细技术资料下载

【技术实现步骤摘要】
文本相似度确定方法、装置、计算机设备及存储介质

[0001]本专利技术实施例涉及文本处理
，具体涉及一种文本相似度确定方法、文本相似度确定装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]目前，随着信息技术的高速发展，文本相似性的在各行各业的应用越来越广泛。例如，在线考试系统的阅卷过程中，可根据文本相似性进行自动评分。
[0003]然而，本申请的专利技术人发现，现有一般基于传统规则及知识进行文本相似度计算，很大程度上依赖于人为的特征定义和规则制定，不同的语言专家定制规则不一且难以覆盖所有知识面，另一方面各层级间的相似度计算所采用向量仅能表征作为语言自身特征而不能蕴含上下文语义关联，整个句子的语义提取不够充分，这使得现有的文本相似度确定方法准确度较低。

技术实现思路

[0004]鉴于上述问题，本专利技术实施例提供了一种文本相似度确定方法、文本相似度确定装置、计算机设备及计算机可读存储介质，用于解决现有技术中存在的现有的文本相似度确定方法准确度较低的问题。
[0005]根据本专利...

【技术保护点】

【技术特征摘要】
1.一种文本相似度确定方法，其特征在于，所述方法包括：获取待识别的第一文本和第二文本；将所述第一文本及所述第二文本分别输入相似度融合计算模型进行计算，得到所述第一文本与所述第二文本的相似度结果；其中所述相似度融合计算模型包括文本相似度预测模型、词语相似度计算模块及文本编辑距离相似度计算模块；文本编辑距离相似度表示两个字符串之间由一个转换为另一个所需最少编辑次数。2.根据权利要求1所述的方法，其特征在于，所述将所述第一文本及所述第二文本分别输入相似度融合计算模型进行计算，得到所述第一文本与所述第二文本的相似度结果之前，所述方法还包括：采用SOP任务对初始的文本相似度预测模型进行预训练，得到预训练后的文本相似度预测模型；所述SOP任务将相连的两个句子作为正样本，将相连的两个句子顺序转换后作为负样本；将相似文本样本集输入预训练后的文本相似度预测模型进行训练，得到预测结果；根据预测结果与期望结果，采用预设的损失函数，计算所述预训练后的文本相似度预测模型的损失，并根据所述损失调整所述预训练后的文本相似度预测模型的参数，并继续执行所述将相似文本样本集输入预训练后的文本相似度预测模型进行训练，得到预测结果，以及根据预测结果与期望结果，采用预设的损失函数，计算所述预训练后的文本相似度预测模型的损失，并根据所述损失调整所述预训练后的文本相似度预测模型的参数的步骤，直至所述损失达到预设损失阈值或达到预设迭代训练次数，得到训练好的所述文本相似度预测模型。3.根据权利要求2所述的方法，其特征在于，所述根据预测结果与期望结果，采用预设的损失函数，计算所述预训练后的文本相似度预测模型的损失，包括：采用平滑损失函数作为所述预设的损失函数，计算所述预训练后的文本相似度预测模型的损失；所述平滑损失函数表征样本真实类别与预测类别差加上预测分布与先验分布的偏离程度。4.根据权利要求1所述的方法，其特征在于，所述将所述第一文本及所述第二文本分别输入相似度计算模型进行计算，得到相似度结果，进一步包括：将所述第一文本及所述第二文本输入所述文本相似度预测模型，得到所述第一文本与所述第二文本的文本预测相似度；将所述第一文本及所述第二文本输入所述词语相似度计算模块，得到所述第一文本与所述第二文本中各个词语之间的词语相似度；将所述第一文本与所述第二文本输入所述文本编辑距离相似度计算模块，得到文本编辑距离相似度；根据所述文本预测相似度、所述词语相似度以及所述文本编辑距离相似度，加权融合计算，得到所述相似度结果。5.根据权利要求4所述的方法，其特征在于，所述文本相似度预测模型包括输入层、编码层、匹配层、匹配信息提取层及输出层；...

【专利技术属性】
技术研发人员：任雄，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人