System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种语义相似度计算方法、装置以及存储介质制造方法及图纸_技高网

一种语义相似度计算方法、装置以及存储介质制造方法及图纸

技术编号:40966395 阅读:3 留言:0更新日期:2024-04-18 20:46
本发明专利技术提供一种语义相似度计算方法、装置以及存储介质,属于自然语言技术领域,方法包括:导入多个原始句子,通过原始编码器对原始句子进行编码分析,得到句子向量组;通过原始句子以及句子向量组对原始编码器进行训练,得到目标编码器;导入第一待处理句子和第二待处理句子,通过目标编码器对第一待处理句子和第二待处理句子进行相似度分析,得到语义相似度计算结果。本发明专利技术能够克服正样本和负样本缺失的问题,减小了语义相似度的误差,提高了语义相似度的准确率。

【技术实现步骤摘要】

本专利技术主要涉及自然语言,具体涉及一种语义相似度计算方法、装置以及存储介质


技术介绍

1、语义相似性计算是通过设计一种算法,经过大量的训练之后,使机器能够像人类一样识别自然语言,深究语言中所包含的关键信息,从而对两个句子的相似性进行计算。但是,在现有的语义相似性计算中,大多数是基于无监督语料库进行训练的,会出现正样本和负样本缺失的问题,从而导致结果误差较大,准确率不高的问题。


技术实现思路

1、本专利技术所要解决的技术问题是针对现有技术的不足,提供一种语义相似度计算方法、装置以及存储介质。

2、本专利技术解决上述技术问题的技术方案如下:一种语义相似度计算方法,包括如下步骤:

3、导入多个原始句子,通过原始编码器分别对各个所述原始句子进行编码分析,得到与各个所述原始句子对应的句子向量组;

4、通过所有所述原始句子以及所有所述句子向量组对所述原始编码器进行训练,得到目标编码器;

5、导入第一待处理句子和第二待处理句子,通过所述目标编码器对所述第一待处理句子和所述第二待处理句子进行相似度分析,得到语义相似度计算结果。

6、本专利技术解决上述技术问题的另一技术方案如下:一种语义相似度计算装置,包括:

7、导入模块,用于导入多个原始句子;

8、分析模块,用于通过原始编码器分别对各个所述原始句子进行编码分析,得到与各个所述原始句子对应的句子向量组;

9、训练模块,用于通过所有所述原始句子以及所有所述句子向量组对所述原始编码器进行训练,得到目标编码器;

10、导入模块,还用于导入第一待处理句子和第二待处理句子;

11、计算结果获得模块,用于通过所述目标编码器对所述第一待处理句子和所述第二待处理句子进行相似度分析,得到语义相似度计算结果。

12、基于上述一种语义相似度计算方法,本专利技术还提供一种语义相似度计算系统。

13、本专利技术解决上述技术问题的另一技术方案如下:一种语义相似度计算系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的语义相似度计算方法。

14、基于上述一种语义相似度计算方法,本专利技术还提供一种计算机可读存储介质。

15、本专利技术解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的语义相似度计算方法。

16、本专利技术的有益效果是:通过原始编码器对原始句子的编码分析得到句子向量组,通过原始句子以及句子向量组对原始编码器的训练得到目标编码器,通过目标编码器对第一待处理句子和第二待处理句子的相似度分析得到语义相似度计算结果,能够克服正样本和负样本缺失的问题,减小了语义相似度的误差,提高了语义相似度的准确率。

本文档来自技高网...

【技术保护点】

1.一种语义相似度计算方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的语义相似度计算方法,其特征在于,所述通过原始编码器分别对各个所述原始句子进行编码分析,得到与各个所述原始句子对应的句子向量组的过程包括:

3.根据权利要求2所述的语义相似度计算方法,其特征在于,所述通过所有所述原始句子以及所有所述句子向量组对所述原始编码器进行训练,得到目标编码器的过程包括:

4.根据权利要求3所述的语义相似度计算方法,其特征在于,所述分别对各个所述第一句子向量以及与各个所述原始句子对应的第二句子向量进行损失函数计算,得到与各个所述原始句子对应的初始损失函数的过程包括:

5.根据权利要求3所述的语义相似度计算方法,其特征在于,所述通过所有所述第一句子向量对所述训练模型进行训练,得到检索模型的过程包括:

6.根据权利要求3所述的语义相似度计算方法,其特征在于,所述分别对各个所述第一句子向量以及与各个所述原始句子对应的句子检索向量进行损失函数分析,得到与各个所述原始句子对应的平滑损失函数的过程包括:

7.根据权利要求3所述的语义相似度计算方法,其特征在于,所述分别对各个所述编码后句子向量、与各个所述原始句子对应的第一句子向量以及与各个所述原始句子对应的第二句子向量进行损失函数计算,得到与各个所述原始句子对应的负例损失函数的过程包括:

8.根据权利要求1所述的语义相似度计算方法,其特征在于,所述通过所述目标编码器对所述第一待处理句子和所述第二待处理句子进行相似度分析,得到语义相似度计算结果的过程包括:

9.一种语义相似度计算装置,其特征在于,包括:

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至8任一项所述的语义相似度计算方法。

...

【技术特征摘要】

1.一种语义相似度计算方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的语义相似度计算方法,其特征在于,所述通过原始编码器分别对各个所述原始句子进行编码分析,得到与各个所述原始句子对应的句子向量组的过程包括:

3.根据权利要求2所述的语义相似度计算方法,其特征在于,所述通过所有所述原始句子以及所有所述句子向量组对所述原始编码器进行训练,得到目标编码器的过程包括:

4.根据权利要求3所述的语义相似度计算方法,其特征在于,所述分别对各个所述第一句子向量以及与各个所述原始句子对应的第二句子向量进行损失函数计算,得到与各个所述原始句子对应的初始损失函数的过程包括:

5.根据权利要求3所述的语义相似度计算方法,其特征在于,所述通过所有所述第一句子向量对所述训练模型进行训练,得到检索模型的过程包括:

6.根据权利要求3所述的语义相似度计算方法,其特征在...

【专利技术属性】
技术研发人员:蔡晓东黄业洋
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1