一种基于两层语义模型的文本相似度计算方法与装置制造方法及图纸

技术编号：37064620 阅读：21 留言：0更新日期：2023-03-29 19:42

本发明专利技术公开了一种基于两层语义模型的文本相似度计算方法与装置，统计第一文本和第二文本的句子数量，将数量较小的记为第一文本句子集，另一记为第二文本句子集，计算文本长度对比度；通过第一语义模型分别对第一文本句子集与第二文本句子集进行向量转化，得到第一文本句子向量集与第二文本句子向量集；计算每个句子向量的距离相似度，以在第二文本句子集中寻找第一文本句子集每个句子对应的最相似句子；将最相似的句子组合得到第三文本句子向量集；第一文本句子向量集和第三文本句子向量集通过第二语义模型编码得到第一文本向量和第三文本向量，计算第一文本向量和第三文本向量的相似度；向量相似度与文本长度对比度相乘，得到文本相似度。得到文本相似度。得到文本相似度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于两层语义模型的文本相似度计算方法与装置

[0001]本专利技术涉及自然语言处理
，具体涉及一种基于两层语义模型的文本相似度计算方法与装置。

技术介绍

[0002]文本相似度计算是自然语言处理
的常见任务，在很多场景都有广泛应用。通常有以下两类方法：
[0003]一类方法是基于字符串的相似度，如Jaccard相似度，它是将文本视为词的集合，比较两个文本的交集，交集中词的占比越大，文本相似度越高。另一类方法是基于关键词的相似度，如使用TF
‑
IDF、simhash等关键词提取技术，以若干重要的关键词来表达整篇文本的含义，进而比较文本相似度。
[0004]第一类方法遵循朴素的统计学规律，完全放弃了文本的语义，而语义是文本的重要属性，忽略了语义去考察文本相似度，显然会降低准确度。第二类方法用关键词来表征文本，一定程度上考虑的文本的语义，但同时也丢失了非关键词部分的语义，造成准确度降低。

技术实现思路

[0005]针对现有技术不足，本专利技术提出了一种基于两层语义模型的文本相似度计算方法与装置，可以全量提取文本的语义信息，进而提升文本相似度度量的准确性。
[0006]为实现上述专利技术目的，本专利技术的技术方案为：本专利技术实施例的第一方面提供了一种基于两层语义模型的文本相似度计算方法，所述方法具体包括以下子步骤：
[0007]步骤1：统计待比较的两个文本的句子数量将句子数量较小的文本记为第一文本句子集，另一文本记为第二文本句子集，并计算得到...

【技术保护点】

【技术特征摘要】
1.一种基于两层语义模型的文本相似度计算方法，其特征在于，所述方法具体包括以下子步骤：步骤1：统计待比较的两个文本的句子数量将句子数量较小的文本记为第一文本句子集，另一文本记为第二文本句子集，并计算得到文本长度对比度；步骤2：通过第一语义模型分别对第一文本句子集与第二文本句子集进行向量转化，得到第一文本句子向量集与第二文本句子向量集；步骤3：计算第一文本句子向量集中每个句子向量和第二文本句子向量集中每个句子向量的距离相似度，在第二文本句子集中寻找第一文本句子集每个句子对应的最相似句子；步骤4：根据步骤3从第二文本句子集中选取与第一文本句子集各句子对应的最相似的句子，按第一文本句子集的句子顺序组合得到第三文本句子向量集；步骤5：分别将第一文本句子向量集和第三文本句子向量集输入至第二语义模型进行编码，得到第一文本向量和第三文本向量，计算第一文本向量和第三文本向量的相似度；步骤6：将步骤5计算的得到的第一文本向量和第三文本向量的相似度与步骤1得到的第一文本和第二文本的文本长度对比度相乘，得到第一文本和第二文本的相似度。2.根据权利要求1所述的基于两层语义模型的文本相似度计算方法，其特征在于，所述步骤1中包括以下子步骤：步骤1.1：对待比较的第一文本和第二文本，通过句子分割符号进行句子分隔，按顺序将第一文本和第二文本分别表示为文本句子集；步骤1.2：对步骤1.1得到的两个文本句子集分别进行句子去重；步骤1.3：对去重后的两个文本句子集分别统计两个文本句子的数量，将句子数量较小的文本句子集记为第一文本句子集，将另一个文本句子集记为第二文本句子集，同时将第一文本句子集的句子数量记为L1，将第二文本句子集的句子数量记为L2；步骤1.4：计算得到文本长度对比度L＝L1/L2。3.根据权利要求1所述的基于两层语义模型的文本相似度计算方法，其特征在于，所述步骤2中包括以下子步骤：步骤2.1：对第一文本句子集和第二文本句子集的所有句子进行预处理；步骤2.2：将步骤2.1中预处理好的第一文本句子集和第二文本句子集输入至构建第一语义...

【专利技术属性】
技术研发人员：郑海天，黄程韦，朱晓明，阚保春，魏伟，刘海丰，陈圆谜，
申请(专利权)人：浙江杭钢职业教育集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人