一种基于两层语义模型的文本相似度计算方法与装置制造方法及图纸

技术编号:37064620 阅读:21 留言:0更新日期:2023-03-29 19:42
本发明专利技术公开了一种基于两层语义模型的文本相似度计算方法与装置,统计第一文本和第二文本的句子数量,将数量较小的记为第一文本句子集,另一记为第二文本句子集,计算文本长度对比度;通过第一语义模型分别对第一文本句子集与第二文本句子集进行向量转化,得到第一文本句子向量集与第二文本句子向量集;计算每个句子向量的距离相似度,以在第二文本句子集中寻找第一文本句子集每个句子对应的最相似句子;将最相似的句子组合得到第三文本句子向量集;第一文本句子向量集和第三文本句子向量集通过第二语义模型编码得到第一文本向量和第三文本向量,计算第一文本向量和第三文本向量的相似度;向量相似度与文本长度对比度相乘,得到文本相似度。得到文本相似度。得到文本相似度。

【技术实现步骤摘要】
一种基于两层语义模型的文本相似度计算方法与装置


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于两层语义模型的文本相似度计算方法与装置。

技术介绍

[0002]文本相似度计算是自然语言处理
的常见任务,在很多场景都有广泛应用。通常有以下两类方法:
[0003]一类方法是基于字符串的相似度,如Jaccard相似度,它是将文本视为词的集合,比较两个文本的交集,交集中词的占比越大,文本相似度越高。另一类方法是基于关键词的相似度,如使用TF

IDF、simhash等关键词提取技术,以若干重要的关键词来表达整篇文本的含义,进而比较文本相似度。
[0004]第一类方法遵循朴素的统计学规律,完全放弃了文本的语义,而语义是文本的重要属性,忽略了语义去考察文本相似度,显然会降低准确度。第二类方法用关键词来表征文本,一定程度上考虑的文本的语义,但同时也丢失了非关键词部分的语义,造成准确度降低。

技术实现思路

[0005]针对现有技术不足,本专利技术提出了一种基于两层语义模型的文本相似度计算方法与装置,可以全量提取文本的语义信息,进而提升文本相似度度量的准确性。
[0006]为实现上述专利技术目的,本专利技术的技术方案为:本专利技术实施例的第一方面提供了一种基于两层语义模型的文本相似度计算方法,所述方法具体包括以下子步骤:
[0007]步骤1:统计待比较的两个文本的句子数量将句子数量较小的文本记为第一文本句子集,另一文本记为第二文本句子集,并计算得到文本长度对比度;
[0008]步骤2:通过第一语义模型分别对第一文本句子集与第二文本句子集进行向量转化,得到第一文本句子向量集与第二文本句子向量集;
[0009]步骤3:计算第一文本句子向量集中每个句子向量和第二文本句子向量集中每个句子向量的距离相似度,在第二文本句子集中寻找第一文本句子集每个句子对应的最相似句子;
[0010]步骤4:根据步骤3从第二文本句子集中选取与第一文本句子集各句子对应的最相似的句子,按第一文本句子集的句子顺序组合得到第三文本句子向量集;
[0011]步骤5:分别将第一文本句子向量集和第三文本句子向量集输入至第二语义模型进行编码,得到第一文本向量和第三文本向量,计算第一文本向量和第三文本向量的相似度;
[0012]步骤6:将步骤5计算的得到的第一文本向量和第三文本向量的相似度与步骤1得到的第一文本和第二文本的文本长度对比度相乘,得到第一文本和第二文本的相似度。
[0013]进一步地,所述步骤1中包括以下子步骤:
[0014]步骤1.1:对待比较的第一文本和第二文本,通过句子分割符号进行句子分隔,按顺序将第一文本和第二文本分别表示为文本句子集;
[0015]步骤1.2:对步骤1.1得到的两个文本句子集分别进行句子去重;
[0016]步骤1.3:对去重后的两个文本句子集分别统计两个文本句子的数量,将句子数量较小的文本句子集记为第一文本句子集,将另一个文本句子集记为第二文本句子集,同时将第一文本句子集的句子数量记为L1,将第二文本句子集的句子数量记为L2;
[0017]步骤1.4:计算得到文本长度对比度L=L1/L2。
[0018]进一步地,所述步骤2中包括以下子步骤:
[0019]步骤2.1:对第一文本句子集和第二文本句子集的所有句子进行预处理;
[0020]步骤2.2:将步骤2.1中预处理好的第一文本句子集和第二文本句子集输入至构建第一语义模型中得到第一文本句子向量集与第二文本句子向量集。
[0021]进一步地,所述步骤2.1中预处理的过程为:判断每个句子的字符是否超过512个字符,若超过512个字符则需按512个字符长度截断;若没有超过512个字符,则需要对句子进行标准化处理,扩充至512个字符。
[0022]进一步地,所述第一语义模型为预训练好的Bert语义模型。
[0023]进一步地,所述步骤3中包括以下子步骤:
[0024]步骤3.1:对于第一文本句子集中的每个句子向量和第二文本句子集中的所有句子向量,通过分别计算其余弦相似度得到空间距离;
[0025]步骤3.2:对步骤3.1得到的所有余弦相似度进行排序,针对第一文本句子集中每个句子,取余弦相似度最大的句子,可得到其在第二文本句子集中与其最相似的句子。
[0026]进一步地,所述步骤5中第二语义模型选用Transformer编码器。
[0027]进一步地,所述步骤5中分别将第一文本句子向量集和第三文本句子向量集通过第二语义模型进行编码,分别得到第一文本向量和第三文本向量的过程具体为:
[0028]将第一文本句子向量集和第三文本句子向量集输入至第二语义模型,通过第二语义模型进行编码,通过外接全连接层的方式,将第一文本句子向量集和第三文本句子向量集均转化成512维的向量,得到第一文本向量和第三文本向量。
[0029]本专利技术实施例的第二方面提供了一种基于两层语义模型的文本相似度计算装置,包括一个或多个处理器,用于实现上述的基于两层语义模型的文本相似度计算方法。
[0030]本专利技术实施例的第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的基于两层语义模型的文本相似度计算方法。
[0031]与现有技术相比,本专利技术的有益效果为:
[0032]1、本专利技术方法通过第一语义模型对文本句子集进行向量化,通过第二语义模型对句子向量集进行编码,得到最终的文本向量,最大限度保留了原始文本的语义信息。可以充分考虑了文本的全量信息,基本保留了文本所有的语义特征,使得相似度计算更加准确。
[0033]2、本专利技术方法使用文本长度对比度,有效突破了文本相似度计算的文本长度限制,调整长度不同的文本的相似度计算,使本专利技术的适用范围可拓展到长短文本的相似度计算。使得应用场景更加广泛,可以用于相似文本的匹配、查重等多种应用场景。
附图说明
[0034]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为本专利技术实施例提出的一种基于两层语义模型的文本相似度计算方法的流程图;
[0036]图2为本专利技术实施例提出的一种基于两层语义模型的文本相似度计算装置的示意图。
具体实施方式
[0037]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。
[0038]在本专利技术使用的术语是仅仅出于描述特定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于两层语义模型的文本相似度计算方法,其特征在于,所述方法具体包括以下子步骤:步骤1:统计待比较的两个文本的句子数量将句子数量较小的文本记为第一文本句子集,另一文本记为第二文本句子集,并计算得到文本长度对比度;步骤2:通过第一语义模型分别对第一文本句子集与第二文本句子集进行向量转化,得到第一文本句子向量集与第二文本句子向量集;步骤3:计算第一文本句子向量集中每个句子向量和第二文本句子向量集中每个句子向量的距离相似度,在第二文本句子集中寻找第一文本句子集每个句子对应的最相似句子;步骤4:根据步骤3从第二文本句子集中选取与第一文本句子集各句子对应的最相似的句子,按第一文本句子集的句子顺序组合得到第三文本句子向量集;步骤5:分别将第一文本句子向量集和第三文本句子向量集输入至第二语义模型进行编码,得到第一文本向量和第三文本向量,计算第一文本向量和第三文本向量的相似度;步骤6:将步骤5计算的得到的第一文本向量和第三文本向量的相似度与步骤1得到的第一文本和第二文本的文本长度对比度相乘,得到第一文本和第二文本的相似度。2.根据权利要求1所述的基于两层语义模型的文本相似度计算方法,其特征在于,所述步骤1中包括以下子步骤:步骤1.1:对待比较的第一文本和第二文本,通过句子分割符号进行句子分隔,按顺序将第一文本和第二文本分别表示为文本句子集;步骤1.2:对步骤1.1得到的两个文本句子集分别进行句子去重;步骤1.3:对去重后的两个文本句子集分别统计两个文本句子的数量,将句子数量较小的文本句子集记为第一文本句子集,将另一个文本句子集记为第二文本句子集,同时将第一文本句子集的句子数量记为L1,将第二文本句子集的句子数量记为L2;步骤1.4:计算得到文本长度对比度L=L1/L2。3.根据权利要求1所述的基于两层语义模型的文本相似度计算方法,其特征在于,所述步骤2中包括以下子步骤:步骤2.1:对第一文本句子集和第二文本句子集的所有句子进行预处理;步骤2.2:将步骤2.1中预处理好的第一文本句子集和第二文本句子集输入至构建第一语义...

【专利技术属性】
技术研发人员:郑海天黄程韦朱晓明阚保春魏伟刘海丰陈圆谜
申请(专利权)人:浙江杭钢职业教育集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1